Programa dará melhores ouvidos aos robôs

Redação do Site Inovação Tecnológica - 12/07/2005

Cientistas russos sugeriram um enfoque totalmente novo para a identificação computadorizada de palavras. Com a nova tecnologia, poderá ser possível dar ordens a qualquer tipo de equipamento, dos mais primitivos telefones celulares até os mais avançados robôs.

Um ser humano reconhece uma palavra familiar sem qualquer dificuldade, independentemente de quem esteja falando ou de qual seja a entonação utilizada. "Seis" ou "oito" continuam inteligíveis, sejam elas sussurradas ou gritadas, faladas por uma criança ou por uma pessoa idosa. Isto acontece porque o cérebro separa imediatamente a parte semântica da massa de sons associados ou ruídos de fundo.

Já para uma máquina, cada variante da voz é única. É por isso que os programas de reconhecimento de voz precisam ser "treinados". Como resultado do treinamento, o programa vai montando uma gigantesca biblioteca, com milhares de possibilidades de pronúncia para cada palavra.

Quando "ouve" uma nova palavra, o programa procura por ela em sua biblioteca, selecionando a que mais se parece com aquela que ele acabou de captar. Isso tem restringido muito a utilização dos comandos de voz em robôs, principalmente nos modelos mais compactos, nos quais armazenamento de dados e poder de processamento são fatores a serem economizados a qualquer custo.

Já o enfoque sugerido pelos cientistas do Instituto de Rádio Engenharia e Eletrônica da Rússia é, por assim dizer, "mais humano" do que mecânico ou digital: o computador filtra as peculiaridades individuais, captando o que há de mais básico e rejeitando o que é considerado "imaterial" - algo irrelevante para o interpretação do som. Com isto, o programa ganha a capacidade de discernir sons individuais, que podem ser identificados independentemente dos sons ambientes ou da entonação com que a palavra é dita.

Como resultado, uma memória de apenas 1 KB é suficiente para que o programa reconheça todos os numerais e alguns comandos simples. Os cientistas fizeram testes pedindo que os usuários tentassem enganar o programa, falando de forma diversa ou com entonação quase ininteligível. O programa conseguiu acertar todas as palavras, descartando as freqüências emocionais como imateriais.

"A interface-protótipo desenvolvida por nossos especialistas para o sistema de dados e gerenciamento de comandos por voz é voltado para equipamentos portáteis de massa," afirma o gerente do projeto, Vyacheslav Anciperov. "Talvez o mais importante e fundamentalmente novo em nosso trabalho é que nós capturamos os elementos essenciais da fala, guiados pela noção de estrutura hierárquica do falar."

E os cientistas realmente conseguiram simplificar: enquanto um arquivo MP3 com boa qualidade exige uma amostragem de dados na faixa de 128 KHz - a faixa de freqüência dos sons que são incluídas na música - eles descobriram que apenas 1 KHz é responsável pelo som básico da fala - tudo o mais é o que eles chamam de psicofísica, algo que, para a finalidade de captar comandos de voz, pode ser descartado.