O estado do reconhecimento de voz do Linux

Eu gasto muito tempo pesquisando artigos e, muitas vezes, penso sobre o assunto de um artigo enquanto caminho até a estação de trem ou quando estou viajando em geral.

Uma noite enquanto caminhava 1,5 milhas até a estação do meu trabalho eu pensei "não seria bom se eu pudesse gravar o que eu queria dizer e depois transcrevê-lo automaticamente para um arquivo de texto que eu poderia editar e formatar mais tarde" .

Passei muitas horas examinando as diferentes opções disponíveis para reconhecimento de voz e ditado, incluindo gravação diretamente através de um microfone usando software de ditado no Linux, gravando o arquivo em formato MP3 ou WAV e convertendo-o pela linha de comando, bem como usando o Chrome e aplicativos Android.

Este artigo destaca minhas descobertas depois de dias de trabalho duro.

Opções do Linux

Tentar encontrar software de ditado e reconhecimento de voz no Linux não é tão fácil quanto poderia ser e as opções disponíveis não são tão inteligentes.

Esta página da Wikipédia tem uma lista de possíveis opções, incluindo CMU Sphinx, Julius e Simon.

Eu estou usando o SparkyLinux que é baseado no Debian Testing no momento e posso dizer que o único pacote de reconhecimento de voz disponível nos repositórios é o Sphinx.

Os programas nativos do Linux que acabei experimentando eram o PocketSphinx, que eu usava para converter arquivos WAV para texto e o Freespeech-VR, que é um aplicativo python que permite gravar diretamente de um microfone.

Também experimentei alguns aplicativos do Chrome, incluindo o VoiceNote II e o Dictanote.

Finalmente eu tentei o "Ditado e-mail" e "Talk and Talk Dictation" Android Apps.

Freespeech-VR

Freespeech-VR não está disponível nos repositórios padrão. Eu baixei os arquivos daqui.

Depois de baixar e extrair o conteúdo do arquivo zip, abri um terminal e naveguei para a pasta para onde os arquivos foram extraídos. Eu digitei o seguinte comando para abrir o freespeech-vr.

sudo python freespeech-vr

Eu tenho um par de fones de ouvido com um microfone bastante decente e um sotaque inglês sulista bastante claro.

O texto a seguir apareceu na janela freespeech-vr:

Bem-vindo à unidade cães de resultado Hoje Teremos garantido Como Testes Gerenciados Terá que testar Quando Usar o Texto para o Sistema Maneira do Discurso I o Para cada um era Somente Na Esperança de Permanecer E o Meio de Uma galinha dourada como sistema O Ea quando meu nome é chamado no próximo telefone Esse arquivo Em breve um telefone para o Hands-Space the sphinx Indo Não é um telefone que será compartilhado Um treinamento e ferramentas Use a fala Quando você terminar Diga Um arquivo usado Último história A e usando um pelo quando é muito como o sucesso Este Linux foi como você evitar é

Gostaria apenas de dizer agora que este não é o site da Unidade de Cães e em nenhum momento mencionei nada a ver com as galinhas Golden. Eu estava realmente tentando descrever o processo de usar o software de reconhecimento de voz.

Eu tentei o software algumas vezes, incluindo variação de altura e velocidade, mas a precisão era ruim.

PocketSphinx

O PocketSphinx é capaz de pegar um arquivo WAV e convertê-lo em texto usando a linha de comando. O PocketSphinx está disponível através dos repositórios do Debian e deve estar disponível para a maioria das distribuições.

O principal problema que encontrei com o PocketSphinx é que você praticamente precisa de um diploma nos conceitos de reconhecimento de voz, arquivos de idiomas, dicionários e como treinar o sistema.

Depois de instalar o PocketSphinx, você deve acessar o site do CMU Sphinx e ler o máximo de informações possível. Você também precisa baixar o seguinte arquivo de modelo.

Modelo de linguagem genérica em inglês dos EUA

(Se você não é um falante nativo de inglês, escolha o modelo de idioma apropriado para você).

A documentação do PocketSphinx e do Sphinx em geral é difícil de entender para o leigo, mas pelo que pude fazer, os arquivos do dicionário são usados para fornecer uma lista de possíveis palavras e os modelos de linguagem têm uma lista de possíveis pronúncias.

Para testar o PocketSphinx, usei uma gravação de minha própria voz, um trecho de Al Pacino em "The Devils Advocate" e um trecho de "Morgan Freeman". O objetivo disso era tentar vozes diferentes e, para mim, não há ninguém que possa contar uma história tão claramente quanto Morgan Freeman e ninguém dê uma fala como Al Pacino.

Para o PocketSphinx funcionar, ele precisa de um arquivo WAV e precisa estar em um determinado formato. Se o arquivo estiver no formato MP3, use o comando ffmpeg para convertê-lo no formato WAV:

ffmpeg -i inputfilename.mp3 -acodec pcm_s16le -ar 16000 outputfilename.wav

Para rodar o PocketSphinx, use o seguinte comando:

pocketsphinx_continuous -dict /usr/share/pocketsphinx/model/lm/en_US/cmu07a.dic -infile voice2.wav -lm cmusphinx-5.0-pt-br.lm 2> voice2.log

O pocketsphinx_continuous pega um arquivo WAV e o converte em texto.

No comando acima, pocketsphinx é instruído a usar um arquivo de dicionário chamado "/usr/share/pocketsphinx/model/lm/en_US/cmu07a.dic" com o modelo de idioma "cmusphinx-5.0-en-us.lm". O arquivo que está sendo convertido em texto é chamado de voice2.wav (que é uma gravação que fiz com minha voz). Finalmente, o 2> coloca toda a saída detalhada que você não precisa necessariamente em um arquivo chamado voice2.log. Os resultados reais do teste são exibidos na janela do terminal.

Os resultados usando minha voz são os seguintes:

bem-vindo ao próximo sobre bem não assunto desta semana sobre qual software de reconhecimento em um minuto

Os resultados não são tão horríveis quanto com o freespeech-vr, mas ainda não são realmente utilizáveis. Eu tentei usar PocketSphinx com Al Pacino, mas isso não retornou nenhum resultado.

Finalmente eu tentei usar a voz de Morgan Freeman do filme "Bruce Almighty" e aqui estão os resultados:

000000000: nós vamos nela000000001: são tão difíceis sim o dia que agora sim esta é a mais que estivemos vivos eu sou parte pelo quente000000002: no elevador quem é a chave de um pouco de beisebol ou sabe o que fazer em vidas000000003: quais são os que vão se recuperar000000004: eles não escreveram000000005: eles têm em mim para a direita000000006: você deve ser regras000000007: eu estive esperando por você000000008: e ele aprendeu aqui que era uma ilustração é foi a festa de natal assassino000000009: Acontece uma das maneira de escrever o. bunda eu pensei que poucos sempre usam um000000010: como o problema unido não vai dar a ele o bom eu sou o estimado-los naquele momento em que não fizemos tudo o que você acha que eu estou no mundo vai casas e eu vi que000000011: um pai que tem000000012: o que é muito sobre isso000000013: isso dado000000014: tudo o que você não cai muito000000015: certo no outono000000016: bem, espere só por mim000000017: é um infeliz se eu pensar também que eles vão ter um que o que vai tudo isso se casou em um não é que eu gosto do contrário do caminho

Meu teste dificilmente pode ser considerado científico e os desenvolvedores do PocketSphinx podem afirmar que não estou usando o software corretamente. Há também uma técnica chamada treinamento de voz que pode ser usada para criar melhores dicionários e arquivos de idioma.

Minha opinião predominante é que é muito difícil para o uso diário.

VoiceNote II

O VoiceNote II é um aplicativo do Google Chrome que usa a API de reconhecimento do Google Voice.

Se você estiver usando os navegadores Chrome ou Chromium, poderá instalar o VoiceNote II por meio da Web Store.

Os ícones no VoiceNote II são apresentados de maneira estranha, já que você precisa configurar o idioma na parte inferior da janela, e o botão de edição também está na parte inferior, mas o botão de gravação está na posição superior direita.

A primeira coisa que você precisa fazer é selecionar um idioma e isso pode ser feito clicando no ícone do mundo.

Para começar a gravar, clique no ícone do microfone e comece a falar no seu microfone. Para os melhores resultados, achei que falar devagar era fundamental para que o software tivesse a chance de acompanhar.

Os resultados não foram ótimos, como pode ser visto abaixo:

Olá e bem vindo a ligar. Go-Travels.com artigos de hoje sobre a conversão de voz para texto dunelm farrell recessão 2008 como conversões e disse bem apoiado a melhor maneira que eu encontrei addon de texto de voz para mostrar 2014debian ou rpm pacote abrir voz tipo de fala para texto abri-lo se você quiser escolher vs escolheu em edimburgo francês alemão obter o tempo em united kingdomstart no mar microphonewhat você terminou de escrever seu texto como um arquivo de texto para itsuccess bem que é sotaque inglês muito padrão do sul da Inglaterra melhor para ele, mas eu estou indo para o textvia este torrentalong com o documento real e você pode ver os erros que te fazem dar ouvidos

Dictanote

Dictanote é outro aplicativo do Google Chrome que pode ser usado para fins de ditado e é mais intuitivo, mas os resultados não são melhores do que o VoiceNote II.

Eu usei apenas a versão demo do Dictanote que impede a criação de novos documentos, mas permite que você fale sobre o texto que já está no editor. Eu pude testar o reconhecimento de voz, mas os resultados não foram melhores do que o VoiceNote II e, por isso, não me inscrevi na versão pro.

Ditado e Correio

"Dictation And Mail" é um aplicativo Android que usa a API de reconhecimento de voz do Google.

Os resultados de "Dictation and Mail" foram muito melhores do que qualquer outro programa tentado até este ponto.

Olá, bem-vindo ao Linux lifewire. Hoje falamos sobre converter som em texto

O truque com "Dictation and Mail" é falar devagar e pronunciar com a mesma facilidade que você pode com um sotaque mesmo.

Depois de terminar de falar, você pode enviar os resultados por e-mail para si mesmo.

Conversa e Discussão Ditado

O outro aplicativo Android que eu tentei foi "Talk And Talk Dictation".

A interface para este aplicativo foi a melhor do grupo e o reconhecimento de voz funcionou muito bem. Depois de gravar o ditado, pude compartilhar os resultados de várias maneiras, inclusive via e-mail.

bem-vindo ao linux Go-Travels.com hoje estamos falando de conversão de fala em texto

Como você pode ver, o texto acima é o mais claro possível. Falar devagar é a chave.

Resumo

O Linux nativo tem um caminho a percorrer em relação ao reconhecimento de voz e especificamente ao ditado. Existem alguns aplicativos que usam a API do Google Voice, mas ainda não estão listados em repositórios.

As aplicações do ChromeOS são um pouco melhores, mas de longe os melhores resultados foram obtidos com o meu telefone Android. Talvez o telefone tenha um microfone melhor e, portanto, o software de reconhecimento de voz tenha mais chances de conversão.

Para que o reconhecimento de voz se torne realmente utilizável, ele precisa ser mais intuitivo, com menos configuração necessária. Você não deve precisar mexer em modelos de linguagem e dicionários para torná-lo inteligível.

Eu aprecio, no entanto, que toda a arte do reconhecimento de voz é muito desafiadora porque todos têm uma voz diferente e há tantos dialetos de região para região em um país que nunca se preocupam com as centenas de idiomas usados em todo o mundo.

Minha análise, portanto, é que o software de reconhecimento de voz ainda está em andamento.