Die Staat Van Linux Stemherkenning

by Gary Newell

inleiding

Ek spandeer baie tyd om vir artikels te soek en dikwels dink ek oor die onderwerp vir 'n artikel terwyl ek na die treinstasie gaan of wanneer ek oor die algemeen gaan.

Een aand terwyl ek die 1,5 kilometer na die stasie van my werk geloop het, het ek gedink: "Dit sal nie goed wees as ek kon registreer wat ek wou sê nie en dan dit outomaties na 'n tekslêer oorgeskryf wat ek later kon wysig en later op" .

Ek het baie lang ure bestee aan die verskillende opsies wat beskikbaar is vir stemherkenning en diktee, insluitende opname direk deur 'n mikrofoon deur gebruik te maak van diktasie sagteware in Linux, die opname van die lêer na MP3 of WAV formaat en omskakeling via die opdraglyn, sowel as die gebruik van Chrome en Android-toepassings.

Hierdie artikel beklemtoon my bevindings na dae van harde arbeid.

Linux Opsies

Probeer om diktasie en stemherkenningsagteware in Linux te vind, is nie so maklik soos dit kan wees nie en die beskikbare opsies is nie so slim nie.

Hierdie wikipedia-bladsy het 'n lys van moontlike opsies, insluitend CMU Sphinx, Julius en Simon.

Ek gebruik SparkyLinux wat op die oomblik gebaseer is op Debian-toetsing en ek kan jou vertel dat die enigste stemherkenningspakket in die repositories Sphinx is.

Die inheemse Linux-programme wat ek uiteindelik probeer het, was PocketSphinx, wat ek gebruik het om WAV-lêers te omskep na teks en Freespeech-VR, wat 'n python-program is wat jou direk van 'n mikrofoon kan opneem.

Ek het ook 'n paar Chrome-programme, insluitende VoiceNote II en Dictanote, probeer.

Ten slotte het ek die "Diktaat en e-pos" en "Talk and Talk Dictation" Android-programme probeer.

Chat-VR

Vrye Spraak-VR is nie beskikbaar in die standaard repositories nie. Ek het die lêers van hier af afgelaai.

Nadat ek die inhoud van die zip-lêer afgelaai en uitgehaal het, het ek 'n terminaal oopgemaak en na die gids gevlieg waar die lêers uitgetrek is.

Ek het die volgende opdrag getik om vryspraak-vr oop te maak.

sudo python freespeech-vr

Ek het 'n paar koptelefoon met 'n redelik ordentlike mikrofoon en 'n redelik duidelike suidelike Engelse aksent.

Die volgende teks verskyn in die vrye spraak-vr venster:

Welkom by die eenheid honde van die uitkoms Vandag het verseker Hoe Bestuurde Toetse 'n Toets moet toets Wanneer Om teks Gebruik 'n stelsel manier Spraak I die tot een elk was slegs in 'n hoop om te bly En die betekenis van een hoenders goue as stelsel Die Ea wanneer dit my naam die volgende oproepe bel Hierdie foon Binnekort genoeg is 'n saak om na Hands-Space die sfinx te gaan. Dit is nie 'n foon sal gedeel word nie. 'N Opgeleide en en gereedskap. Gebruik praat. Wanneer jy klaar is, Sê 'n gebruikte lêer. storie A En die gebruik van 'n by die Wanneer dit is baie hoe sukses Hierdie Linux was soos vermy jy is

Ek wil nou net sê dat dit nie die Eenheid van Honde-webwerf is nie en ek het op geen oomblik iets met goue hoenders genoem nie. Ek het eintlik probeer om die proses van die gebruik van stemherkenningsagteware te beskryf.

Ek het die sagteware 'n paar keer probeer met inbegrip van wisselende toonhoogte en spoed, maar die akkuraatheid was swak.

PocketSphinx

PocketSphinx is in staat om 'n WAV-lêer te neem en dit omskep in teks met die opdraglyn.

PocketSphinx is beskikbaar via die Debian-repositories en moet beskikbaar wees vir die meeste verspreidings.

Die hoof probleem wat ek by PocketSphinx gevind het, is dat jy feitlik 'n graad nodig het in die konsepte van stemherkenning, taallêers, woordeboeke en hoe om die stelsel op te lei.

Nadat u PocketSphinx geïnstalleer het, behoort u na die CMU Sphinx webwerf te gaan en soveel as moontlik inligting te lees. U moet ook die volgende modellêer aflaai.

Amerikaanse Engels Generiese Taalmodel

(As jy nie 'n moedertaal is nie, kies die taalmodel wat vir jou geskik is).

Die dokumentasie vir PocketSphinx en Sphinx in die algemeen is moeilik om te verstaan vir die lepers, maar uit wat ek kon maak, word woordeboeklêers gebruik om 'n lys van moontlike woorde te verskaf en taalmodelle het 'n lys van moontlike uitsprake.

Om PocketSphinx te toets, gebruik ek 'n opname van my eie stem, 'n fragment van Al Pacino in "The Devils Advocate" en 'n snippie van Morgan Freeman. Die punt hiervan was om verskillende stemme te probeer en vir my is daar niemand wat 'n storie so duidelik as Morgan Freeman kan vertel nie en niemand lewer 'n lyn soos Al Pacino nie.

Vir PocketSphinx om te werk, het dit 'n WAV-lêer nodig en dit moet in 'n sekere formaat wees. As die lêer in MP3-formaat is, gebruik die ffmpeg-opdrag om dit in WAV-formaat om te skakel:

ffmpeg -i invoerfilename.mp3 -acodec pcm_s16le -ar 16000 outputfilename.wav

Om PocketSphinx uit te voer, gebruik die volgende opdrag:

pocketsphinx_continuous -dict /usr/share/pocketsphinx/model/lm/en_US/cmu07a.dic -institute voice2.wav -lm cmusphinx-5.0-nl-us.lm 2> voice2.log

Pocketsphinx_continuous neem 'n WAV-lêer en vat dit na teks.

In die opdrag hierbo word pocketsphinx vertel om 'n woordeboeklêer met die naam "/usr/share/pocketsphinx/model/lm/en_US/cmu07a.dic" te gebruik met die taalmodel "cmusphinx-5.0-en-us.lm". Die lêer wat na teks omgeskakel word, word voice2.wav genoem (wat is 'n opname wat ek met my stem gemaak het). Uiteindelik plaas die 2> al die werklike uitset wat u nie noodwendig nodig het in 'n lêer genaamd voice2.log nie. Die werklike resultate van die toets word in die terminale venster vertoon.

Die resultate wat my stem gebruik, is soos volg:

welkom by die volgende oor wel, nee hierdie week, oor watter erkenningsagteware in 'n minuut

Die resultate is nie so verskriklik soos met vryspraak-vr nie, maar steeds nie regtig bruikbaar nie. Ek het toe probeer om PocketSphinx te gebruik met Al Pacino, maar dit het glad niks opgelewer nie.

Uiteindelik het ek probeer om Morgan Freeman se stem uit die film "Bruce Almighty" te gebruik en hier is die resultate:

000000000: ons sal op haar
000000001: Is dit so moeilik ja die dag wat nou ja, dit is die meeste wat ons al geleef het, ek is deel van die warm
000000002: in die hysbak wat is die sleutel uit 'n bietjie baseball of weet wat om te doen in lewens
000000003: wat is diegene wat sal herstel
000000004: hulle het dit nie geskryf nie
000000005: hulle het my reguit uit
000000006: jy moet reëls wees
000000007: ek het jou verwag
000000008: en hy het hier geleer wat 'n illustrasie was, was die moordenaarkerspartytjie
000000009: dit blyk een van die manier om te skryf o. esel, ek het gedink daar is altyd een
000000010: soos die probleem verenig sal gee hy nie die goeie Ek is die geskatte hulle op die oomblik toe ons nie alles wat jy dink ek in die wêreld sal huise en ek het gesien dat
000000011: 'n pa wat dit het
000000012: wat baie oor hierdie
000000013: word dit gegee
000000014: alles wat jy wat nie baie val nie
000000015: reg in die herfs
000000016: hou goed net vir my
000000017: dit is 'n ongelukkige as ek ook dink dat hulle 'n die een sal hê wat die een is wat getrou is op 'n, was nee, ons hou van die anders as die manier waarop

My toets kan skaars as wetenskaplik beskou word en die ontwikkelaars van PocketSphinx mag meld dat ek nie die sagteware korrek gebruik nie. Daar is ook 'n tegniek genaamd stemopleiding wat gebruik kan word om beter woordeboeke en taallêers te skep.

My oorheersende mening is egter dat dit net te moeilik is vir standaard alledaagse gebruik.

Voice Note II

VoiceNote II is 'n Chrome-program wat die Google Voice-herkenning API gebruik.

As jy die Chrome- of Chromium-blaaiers gebruik, kan jy VoiceNote II installeer via die webwinkel .

Die ikone op VoiceNote II word op 'n vreemde manier uitgelê, aangesien u die taal onderaan die venster moet opstel en die redigeerknoppie is ook onderaan, maar die rekordknoppie is in die regter boonste posisie.

Die eerste ding wat u moet doen is om 'n taal te kies en dit kan bereik word deur op die wêreldikoon te klik.

Om te begin met opname, klik op die mikrofoon-ikoon en begin met jou mikrofoon praat. Vir die beste resultate wat ek gevind het, was dit stadig, die sleutel, sodat die sagteware 'n kans sou hê om op te hou.

Die resultate was nie groot nie, soos hieronder gesien kan word:

Hallo en welkom om aan te sluit. About.com todays artikels oor stem na teks sukses dunelm farrell resessie 2008 as omskakelings en dit het gesê goed ondersteun die beste manier wat ek gevind stem teks addon te wys 2014debian of rpm pakket maak dit stem tipe na spraak te teks oop maak as jy wil kies vs gekies in edinburgh frans duits kry jy die tyd in die verenigde koninkryk begin by die see mikrofoon wat jy klaar met die skryf van jou teks as 'n tekslêer om dit te haal goed dit is baie standaard engelse aksent uit suid van england die beste vir dit maar ek gaan na die textvia hierdie torrentalong met die werklike dokument en jy kan sien vir die foute wat jou vir luisteraars maak

Dictanote

Diktaat is 'n ander Chrome-program wat vir diktatiedoeleindes gebruik kan word en kom meer intuïtief voor, maar die resultate was nie beter as VoiceNote II nie.

Ek het net die demo-weergawe van Dictanote gebruik wat jou verhoed om nuwe dokumente te skep, maar dit laat jou praat oor teks wat reeds in die redakteur is. Ek was in staat om die stemherkenning te toets, maar die resultate was nie beter as VoiceNote II nie en daarom het ek nie die pro-weergawe aangemeld nie.

Diktaat En Pos

Diktaat en pos is 'n Android-toepassing wat die inheemse Google-stemherkennings API gebruik.

Die resultate van "Dictation and Mail" was baie beter as enige ander program wat tot dusver gepoog is.

Hallo welkom by Linux oor. Vandag praat ons van die omskakeling van klank na teks

Die truuk met "Diktaat en Pos" is om so stadig as moontlik te praat en met 'n ewe aksent te kan praat.

Nadat jy klaar gepraat het, kan jy die resultate aan jouself e-pos.

Talk and Talk Dictation

Die ander Android-aansoek wat ek probeer het, was "Talk and Talk Dictation".

Die koppelvlak vir hierdie inligting was die beste van die klomp en die stemherkenning het inderdaad baie goed gewerk. Na die opname van die diktee kon ek die resultate op verskillende maniere deel, insluitend via e-pos.

welkom by linux about.com vandag praat ons oor die omskakeling van spraak na teks

Soos u kan sien, is die teks hierbo omtrent so duidelik as wat u moontlik kan verwag. Praat stadig is die sleutel.

opsomming

Native Linux het een of ander manier te doen met betrekking tot stemherkenning en spesifiek diktee. Daar is sommige programme wat die Google Voice API gebruik, maar hulle is nog nie in repositories gelys nie.

ChromeOS-programme is 'n bietjie beter, maar by verre die beste resultate is behaal met behulp van my Android-foon. Miskien het die foon 'n beter mikrofoon en daarom is die stemherkenningsagteware 'n beter kans op sukses.

Vir stemherkenning om werklik bruikbaar te wees, moet dit meer intuïtief wees met minder instellings wat nodig is. Jy moet nie met taalmodelle en woordeboeke rondbreek om dit verstaanbaar te maak nie.

Ek waardeer egter dat die hele kuns van stemherkenning baie uitdagend is, want almal het 'n ander stem en daar is soveel dialekte van streek tot streek in een land wat nooit bekommerd is oor die honderde tale wat regoor die wêreld gebruik word nie.

My analise is dus dat stemherkenningsagteware nog aan die gang is.