Informática

Óculos equipados com IA entendem fala silenciosa

Redação do Site Inovação Tecnológica - 10/04/2023

Os componentes que equipam os óculos inteligentes ainda precisarão ser miniaturizados e integrados à armação.
[Imagem: Ruidong Zhang et al. - 10.1145/3544548.3580801]

Fala silenciosa

Na demonstração de seus óculos inteligentes, que ainda precisam de um banho de design, parecia que Ruidong Zhang, da Universidade de Cornell, estava falando sozinho. Mas, na verdade, ele estava murmurando silenciosamente a senha para desbloquear seu celular e tocar a próxima música em sua lista de reprodução.

Os óculos aparentemente comuns, que ele batizou de EchoSpeech, incorporam uma interface de reconhecimento de fala silenciosa que usa detecção acústica e inteligência artificial para reconhecer continuamente até 31 comandos não vocalizados, com base apenas nos movimentos dos lábios e da boca - é uma tecnologia conhecida como interface subvocal.

A interface vestível, com baixíssimo consumo de energia, exige apenas alguns minutos de dados de treinamento do usuário antes de reconhecer os comandos e poder ser executada em conjunto com um celular.

"Para as pessoas que não conseguem vocalizar o som, esta tecnologia de fala silenciosa pode ser uma excelente entrada para um sintetizador de voz. Ela pode devolver a voz aos pacientes," disse Zhang, citando um uso potencial da tecnologia, mas que ainda exigirá mais desenvolvimento.

Em sua forma atual, o EchoSpeech pode ser usado para se comunicar com outras pessoas em locais onde a fala é inconveniente ou inapropriada, como em um restaurante barulhento ou em uma biblioteca. A interface de fala silenciosa também pode ser combinada com uma caneta e usada com programa de projeto, do tipo CAD, praticamente eliminando a necessidade de teclado e mouse.

Sonar corporal

Equipados com um par de microfones e alto-falantes menores que borrachas de lápis, os óculos se tornam essencialmente um sistema de sonar vestível alimentado por inteligência artificial: Ele envia e recebe ondas sonoras pelo rosto e detecta os movimentos da boca.

O algoritmo de aprendizado profundo analisa esses perfis de eco em tempo real, com cerca de 95% de precisão.

"Nós estamos levando o sonar para o corpo," disse o professor Cheng Zhang. "Estamos muito entusiasmados com este sistema porque ele realmente leva o campo [de pesquisa] adiante em termos de desempenho e privacidade. Ele é pequeno, tem baixo consumo de energia e é sensível à privacidade, que são recursos importantes para a implantação de novas tecnologias vestíveis no mundo real."

A disposição dos sensores é crucial para a operação eficiente da interface.
[Imagem: Ruidong Zhang et al. - 10.1145/3544548.3580801]

Melhor áudio do que vídeo

A maior parte da tecnologia de reconhecimento de fala silenciosa desenvolvida até agora é limitada a um pequeno conjunto de comandos predeterminados, e exige que o usuário use ou olhe para uma câmera, o que não é prático nem viável na maioria das situações do dia a dia. Também existem grandes preocupações com a privacidade envolvendo câmeras vestíveis - tanto para o usuário quanto para aqueles com quem o usuário interage.

A tecnologia de detecção acústica elimina a necessidade das câmeras de vídeo. E, como os dados de áudio são muito menores do que os dados de imagem ou vídeo, eles requerem menos largura de banda para processar e podem ser retransmitidos para um celular via bluetooth em tempo real.

Essa menor quantidade de dados também faz a duração da bateria melhorar exponencialmente: Dez horas com detecção acústica, versus 30 minutos com uma câmera.

"E, como os dados são processados localmente em seu celular, em vez de enviados para a nuvem, as informações confidenciais nunca saem de seu controle," disse François Guimbretière, membro da equipe.

A equipe já está tentando comercializar a tecnologia. Enquanto isso, eles estão explorando aplicativos de óculos inteligentes para rastrear movimentos faciais, oculares e da parte superior do corpo.

Bibliografia:

Artigo: EchoSpeech: Continuous Silent Speech Recognition on Minimally-obtrusive Eyewear Powered by Acoustic Sensing
Autores: Ruidong Zhang, Ke Li, Yihong Hao, Yufan Wang, Zhengnan Lai, François Guimbretière, Cheng Zhang
Revista: Proceedings of the Association for Computing Machinery Conference on Human Factors in Computing Systems
DOI: 10.1145/3544548.3580801
Link: https://ruidongzhang.com/files/papers/EchoSpeech_authors_version.pdf