Skip to main content

Statens Linux Voice Recognition

Where's Google going next? | Larry Page (Juni 2025)

Where's Google going next? | Larry Page (Juni 2025)
Anonim

Jeg bruger meget tid på at forske på artikler, og jeg tænker ganske ofte på emnet for en artikel, mens man går til togstationen eller når den er i almindelighed.

En aften, mens jeg gik på 1,5 km til stationen fra mit arbejde, tænkte jeg "ville det ikke være godt, hvis jeg kunne registrere, hvad jeg ville sige, og derefter få det transkriberet automatisk til en tekstfil, som jeg kunne redigere og formatere senere" .

Jeg har brugt mange lange timer på at se de forskellige muligheder til stemmegenkendelse og diktation, herunder optagelse direkte via en mikrofon ved hjælp af diktationssoftware i Linux, optagelse af filen til MP3- eller WAV-format og omdannelse via kommandolinjen samt brug af Chrome og Android applikationer.

Denne artikel fremhæver mine resultater efter dage med hårdt arbejde.

Linux-indstillinger

At forsøge at finde diktat- og stemmegenkendelsessoftware i Linux er ikke så nemt som det kunne være, og de tilgængelige muligheder er ikke så kloge.

Denne wikipedia side indeholder en liste over mulige muligheder, herunder CMU Sphinx, Julius og Simon.

Jeg bruger SparkyLinux, som er baseret på Debian Testing i øjeblikket, og jeg kan fortælle dig, at den eneste talegjenkendelsespakke, der er tilgængelig i repositorierne, er Sphinx.

De native Linux-programmer, jeg endte med at prøve, var PocketSphinx, som jeg plejede at konvertere WAV-filer til tekst og Freespeech-VR, hvilket er en python-applikation, som lader dig optage direkte fra en mikrofon.

Jeg har også forsøgt et par Chrome apps, herunder VoiceNote II og Dictanote.

Endelig prøvede jeg "Diktat og Email" og "Talk and Talk Dictation" Android Apps.

Freespeech-VR

Freespeech-VR er ikke tilgængelig i standardregistrene. Jeg hentede filerne herfra.

Efter at have downloadet og udpakket indholdet af zip-filen, åbnede jeg en terminal og navigerede til den mappe, hvor filerne blev ekstraheret til. Jeg har skrevet følgende kommando for at åbne freespeech-vr.

sudo python freespeech-vr

Jeg har et par hovedtelefoner med en temmelig anstændig mikrofon og en ret klar sydlig engelsk accent.

Følgende tekst fremkom i vinduet freespeech-vr:

Velkommen til enhedens hunde af udfaldet I dag Har du sikret dig, hvordan du administrerer testene, skal du teste, hvornår du bruger teksten, bruger du et system måde tale jeg den til den ene var kun i et for at håbe på at blive og de midler til en kylling gylden som system Ea, når det hedder mit navn, næste telefon ringe Denne fil Snart nok telefoner en hånd til Hands-Space sfinxen Going Det er ikke en telefon vil blive delt En uddannet og og værktøj Brug tale Når du er færdig Sig en brugt fil Sidste historie A Og bruge en af ​​Når det er meget, hvordan succes Denne Linux var som Undgår du

Jeg vil bare sige nu, at dette ikke er webstedet for hundehunde og på intet tidspunkt nævner jeg noget med Golden kyllinger. Jeg forsøgte faktisk at beskrive processen med at bruge stemme genkendelsessoftware.

Jeg prøvede softwaren et par gange, herunder varierende tonehøjde og hastighed, men nøjagtigheden var dårlig.

PocketSphinx

PocketSphinx kan tage en WAV-fil og konvertere den til tekst ved hjælp af kommandolinjen. PocketSphinx er tilgængelig via Debian-arkiverne og bør være tilgængelig for de fleste distributioner.

Hovedproblemet jeg fandt med PocketSphinx er, at du næsten har brug for en grad i begreberne stemmegenkendelse, sprogfiler, ordbøger og hvordan man træner systemet.

Efter installation af PocketSphinx skal du gå til CMU Sphinx hjemmeside og læse så mange oplysninger som muligt. Du skal også downloade følgende modelfil.

  • US English Generic Language Model

(Hvis du ikke er en indfødt engelsktalende, skal du vælge den sprogmodel, der passer til dig).

Dokumentationen til PocketSphinx og Sphinx generelt er svært at forstå for legpersonen, men fra hvad jeg kunne lave ordbogsfiler bruges til at give en liste over mulige ord og sprogmodeller har en liste over mulige udtalelser.

For at teste PocketSphinx brugte jeg en optagelse af min egen stemme, et stykke fra Al Pacino i "The Devils Advocate" og en uddrag fra "Morgan Freeman". Pointen med dette var at prøve forskellige stemmer, og for mig er der ingen der kan fortælle en historie lige så klart som Morgan Freeman, og ingen leverer en linje som Al Pacino.

For PocketSphinx at arbejde har den brug for en WAV-fil, og den skal være i et bestemt format. Hvis filen er i MP3-format, brug ffmpeg-kommandoen til at konvertere den til WAV-format:

ffmpeg -i inputfilename.mp3 -acodec pcm_s16le -ar 16000 outputfilename.wav

For at køre PocketSphinx skal du bruge følgende kommando:

pocketsphinx_continuous -dict /usr/share/pocketsphinx/model/lm/en_US/cmu07a.dic -infile voice2.wav -lm cmusphinx-5.0-en-us.lm 2> voice2.log

pocketsphinx_continuous tager en WAV-fil og konverterer den til tekst.

I kommandoen ovenfor får man besked om at bruge en ordbog fil kaldet "/usr/share/pocketsphinx/model/lm/en_US/cmu07a.dic" med sprogmodellen "cmusphinx-5.0-en-us.lm". Filen, der konverteres til tekst, hedder voice2.wav (hvilket er en optagelse, jeg lavede med min stemme). Endelig placerer 2> alle de verbose output, som du ikke nødvendigvis behøver til en fil kaldet voice2.log. De faktiske resultater af testen vises i terminalvinduet.

Resultaterne ved hjælp af min stemme er som følger:

velkommen til næste om godt nej denne uges emne om hvilken anerkendelses software i et minut

Resultaterne er ikke så forfærdelige som med freespeech-vr, men stadig ikke rigtig anvendelige. Jeg prøvede derefter at bruge PocketSphinx med Al Pacino, men det gav ingen resultater overhovedet.

Endelig forsøgte jeg at bruge Morgan Freeman's stemme fra filmen "Bruce Almighty" og her er resultaterne:

000000000: Vi kommer på hende000000001: er alt det hårdt ja den dag, lige nu ja det er det mest, vi har levet, jeg er en del af det varme000000002: i elevatoren, der er nøglen ud af en smule baseball klokken eller ved hvad man skal gøre i livet000000003: Hvad er dem der vil komme sig000000004: de skrev det ikke000000005: de har på mig lige ud000000006: Du skal være regler000000007: Jeg har ventet dig000000008: og han lærte her, det var en illustration er, var morderen julefesten000000009: Det viser sig en måde at skrive o. Røv, jeg troede, at få altid bærer en000000010: Ligesom problemet forenet vil ikke give ham det gode, jeg er den skønnede dem på det tidspunkt, da vi ikke alt, hvad du tror, ​​jeg er i verden, vil hjem og jeg har set det000000011: en far der har det000000012: Hvad meget om dette000000013: Giver det000000014: Alt du dem, der ikke falder for meget000000015: højre om efteråret000000016: Vel, hold bare for mig000000017: det er en ulykkelig, hvis jeg også tænker på, at de kommer til at have det, at det der vil alt det, der giftes på en var nej, vi kan jeg lide den modsatte måde

Min test kan næppe betragtes som videnskabelig, og udviklerne af PocketSphinx kan angive, at jeg ikke bruger softwaren korrekt. Der er også en teknik kaldet voice training, som kan bruges til at skabe bedre ordbøger og sprogfiler.

Min overordnede mening er dog, at det bare er for svært for almindelig daglig brug.

VoiceNote II

VoiceNote II er en Chrome App, der bruger Google Voice genkendelses API.

Hvis du bruger Chrome- eller Chromium-browsere, kan du installere VoiceNote II via webshoppen.

Ikonerne på VoiceNote II er lagt ud på en underlig måde, da du skal oprette sproget nederst i vinduet, og redigeringsknappen er også nederst, men optageknappen er øverst til højre.

Det første du skal gøre er at vælge et sprog, og dette kan opnås ved at klikke på verdensikonet.

For at starte optagelsen skal du klikke på mikrofonikonet og begynde at tale i din mikrofon. For de bedste resultater, jeg fandt at tale, var det langsomt nøgle, så softwaren kunne få en chance for at holde op.

Resultaterne var ikke store, som det ses nedenfor:

Hej og velkommen til at forbinde. Go-Travels.com dagens artikler om stemme til tekst konvertering dunelm farrell recession 2008 som konverteringer og det sagde godt understøttet den bedste måde jeg fandt stemme tekst addon at vise 2014debian eller rpm pakke åbne det stemme type til tale til tekst åbne det, hvis du vil vælge vs valgte i edinburgh fransk tysk får dig tid i United Kingdom start på havet microphonewhat du færdig med at skrive din tekst som en tekstfil til itsuccess godt det er meget standard engelsk accent fra syd for england bedst for det men jeg går til textvia denne torrentalong med det faktiske dokument, og du kan se for de fejl, der gør dig til at lytte til venner

Dictanote

Dictanote er en anden Chrome App, som kan bruges til diktatformål og kom på tværs som mere intuitiv, men resultaterne var ikke bedre end VoiceNote II.

Jeg brugte kun demoversionen af ​​Dictanote, som forhindrer dig i at oprette nye dokumenter, men det lader dig tale om tekst, der allerede er i editoren. Jeg var i stand til at teste stemmegenkendelsen, men resultaterne var ikke bedre end VoiceNote II, og jeg registrerede mig ikke for pro-versionen.

Diktation og Mail

"Diktation og mail" er et Android-program, der bruger den indbyggede Google-stemmegjenkendelses API.

Resultaterne fra "Diktation og Mail" var meget bedre end noget af det andet program forsøgt op til dette punkt.

Hej velkommen til Linux Lifewire. I dag taler vi om at konvertere lyd til tekst

Tricket med "Diktation og Mail" er at tale langsomt og udtalt så godt som muligt med en lige accent.

Når du er færdig med at tale, kan du sende resultaterne til dig selv.

Talk og Talk Dictation

Det andet Android-program, jeg forsøgte, var "Talk and Talk Dictation".

Grænsefladen til denne app var den bedste af bunken og stemmegenkendelse fungerede rigtig godt. Efter optagelsen af ​​dikteringen kunne jeg dele resultaterne på forskellige måder, herunder via e-mail.

velkommen til linux Go-Travels.com i dag taler vi om at konvertere tale til tekst

Som du kan se, er teksten ovenfor lige så klar som du kan forvente at få. Taler langsomt er nøglen.

Resumé

Native Linux har en eller anden måde at gå med hensyn til stemmegenkendelse og specifikt diktatisering. Der er nogle programmer, der bruger Google Voice API, men de er endnu ikke opført i repositorier.

ChromeOS-applikationer er lidt bedre, men langt de bedste resultater blev opnået ved hjælp af min Android-telefon. Måske har telefonen en bedre mikrofon, og der er derfor en bedre chance for konvertering.

For at stemmegenkendelse skal blive rigtig brugbar, skal den være mere intuitiv med mindre opsætning påkrævet. Du behøver ikke at rive rundt med sprogmodeller og ordbøger for at gøre det forståeligt.

Jeg sætter pris på, at hele billedgenkendelse er meget udfordrende, fordi alle har en anden stemme, og der er så mange dialekter fra region til region i et land, der aldrig bekymrer sig om de hundredvis af sprog, der anvendes over hele verden.

Min analyse er derfor, at talegenkendelse software stadig er i gang.