Robótica

Como criar robôs inteligentes como os da ficção científica?

Com informações do Instituto Harbin de Tecnologia - 08/05/2026

Visão geral do comportamento robótico. (a) A implementação técnica do comportamento robótico, incluindo a constituição do robô (base de hardware), o controle motor (capacidade comportamental) e a inteligência artificial (comportamento inteligente). (b) O processo do comportamento robótico, incluindo percepção, tomada de decisão e execução. (c) A categorização do comportamento robótico, incluindo manipulação e mobilidade.
[Imagem: Chen Yifan et al. - 10.1002/smb2.70003]

Robôs com inteligência artificial

Embora os avanços na inteligência artificial (IA) venham demonstrando capacidades notáveis no processamento de linguagem, visão e fala, essas tecnologias são tipicamente incorpóreas, desmaterializadas, virtuais.

Mas essa natureza incorpórea é insuficiente para a criação dos robôs inteligentes de propósito geral frequentemente imaginados na ficção científica.

Imagine, por exemplo, que você queira uma tarefa realizada e então dê a instrução: "Limpe o quarto". Uma IA clássica, incorpórea, consegue processar partes dessa tarefa: Ela pode interpretar o áudio (fala), entender o significado do comando (PNL) e detectar objetos em uma imagem estática (visão computacional). No entanto, a coisa acaba aí, justamente onde as capacidades da IA terminam, em uma análise passiva.

Um agente corpóreo, uma IA incorporada em um robô físico, por outro lado, precisa resolver o problema por completo. Isso deverá começar com a "percepção incorporada": À medida que o robô se move, ele percebe muito mais informações do que uma visão estática permite (por exemplo, encontrar um brinquedo escondido atrás de uma caixa). Em seguida, ele deverá usar a "tomada de decisão incorporada", conhecendo a sequência correta (por exemplo, jogar o lixo fora antes de organizar os brinquedos) e como lidar com problemas (como procurar um item perdido). Finalmente, o robô precisará realizar a "execução incorporada", os atos físicos de andar, pegar uma garrafa, abrir uma porta e, claro, fazer a limpeza.

Não é preciso recorrer à IA virtual para saber o quanto estamos longe da IA física. Mas é preciso começar o trabalho, por isso uma equipe do Instituto Harbin de Tecnologia, na China, fez um levantamento abrangente sobre a "IA Incorporada", mapeando sistematicamente o campo para orientar as pesquisas que deverão preencher a lacuna entre a análise passiva e a inteligência comportamental.

Rumo à IA Incorporada

Os autores propõem que alcançar um comportamento inteligente em um robô é um processo que pode ser categorizado em três módulos.

Esquema dos três módulos da IA incorporada em robôs.
[Imagem: Chen Yifan et al. - 10.1002/smb2.70003]

A estrutura começa com a Percepção Incorporada, que os autores categorizam com base em sua relação com o comportamento do robô.

Tudo começa com a "percepção para comportamento", que se concentra nas tarefas de percepção utilizadas principalmente para as ações do robô. Isso inclui a percepção de objetos - sentir a forma geométrica, a estrutura articulada e as propriedades físicas de um objeto para permitir a manipulação - e a percepção da cena, que envolve a construção de modelos do ambiente, como mapas métricos ou topológicos, para orientar a mobilidade. A segunda área, mais distinta, é o "comportamento para percepção", que envolve incorporar o próprio comportamento do robô ao processo de percepção. Um agente deverá usar a mobilidade para se mover ativamente e obter mais informações sobre objetos e cenários, ou usar a manipulação para interagir com um objeto e descobrir suas propriedades, como sua estrutura articulada.

As relações causais entre o comportamento do robô, as observações de feedback e as propriedades ambientais.
[Imagem: Chen Yifan et al. - 10.1002/smb2.70003]

O segundo módulo, a Tomada de Decisão Incorporada, aborda como o agente precisará gerar uma sequência de comportamentos para completar uma instrução humana com base em suas observações.

O estudo categoriza essa etapa crucial em dois domínios principais: Navegação e Planejamento de Tarefas. A Navegação envolve o raciocínio de uma sequência de comandos de mobilidade (por exemplo, "virar à esquerda", "seguir em frente") para se mover por um ambiente, enquanto o Planejamento de Tarefas gera uma sequência de habilidades de manipulação (por exemplo, "abrir o micro-ondas", "pegar a garrafa"), incluindo etapas de navegação integradas. Os pesquisadores enfatizam que o desafio fundamental neste módulo é a ancoragem no mundo real: Ao contrário da tomada de decisão puramente digital, um agente incorporado deve levar em conta inúmeros desafios do mundo real, como viabilidade física, as "potencialidades" do objeto (relações entre o objeto e o agente) e as pré-condições.

A diferença entre localização e mapeamento simultâneos (SLAM) ativo e tradicional. No SLAM tradicional, a trajetória do robô é predefinida ou controlada manualmente. Nesse processo, o foco principal é construir o mapa e localizar o robô. Em contraste, o SLAM ativo permite que os robôs determinem autonomamente seus próximos movimentos para obter um mapeamento e uma localização mais precisos.
[Imagem: Chen Yifan et al. - 10.1002/smb2.70003]

O módulo final, a Execução Incorporada, deverá traduzir a decisão gerada em ação física. Neste estudo, os pesquisadores focaram na aprendizagem de habilidades de manipulação, definindo-a como a aprendizagem de uma política comportamental que mapeia descrições de habilidades e observações ambientais para uma ação concreta, tipicamente uma trajetória de 7 graus de liberdade independente da corporeidade - nas avaliações, os pesquisadores usaram o caso de um braço robótico.

Atualmente existem duas abordagens algorítmicas principais sendo utilizadas para treinar uma política desse tipo: Aprendizagem por Imitação, que aprende com demonstrações humanas, e Aprendizagem por Reforço, que aprende por meio da interação por tentativa e erro. O principal problema nesta área está em alcançar a generalização, atingindo as capacidades em diversos objetos, cenários, habilidades e instruções. Mais recentemente, tem-se percebido uma tendência nesse esforço: Uma mudança do treinamento de modelos isolados de habilidade única para o desenvolvimento de Modelos de Execução de Propósito Geral, que, como uma aplicação direta dos grandes modelos de linguagem multimodais, conseguem lidar com múltiplas habilidades em um único modelo.

Visão geral da tomada de decisões. A forma como os robôs executam uma instrução humana deve ser representada como um problema de tomada de decisões, incluindo observação, instrução humana e comportamento robótico potencial. Posteriormente, esse problema de tomada de decisões é resolvido utilizando métodos de raciocínio apropriados.
[Imagem: Chen Yifan et al. - 10.1002/smb2.70003]

A equipe espera que essa estrutura abrangente de três módulos permita estruturar o panorama das pesquisas científicas e tecnológicas na área, que poderá enfrentar sistematicamente os principais desafios seguindo um roteiro claro rumo à criação de agentes inteligentes de propósito geral incorporados - robôs com sua própria IA.

Bibliografia:

Artigo: Embodied AI: A Survey on the Evolution from Perceptive to Behavioral Intelligence
Autores: Chen Yifan, Mingjie Wei, Xuesong Wang, Yuanxing Liu, Jizhe Wang, Hao Song, Longxuan Ma, Donglin Di, Churui Sun, Kaifeng Liu, Le Qi, Jianing Yu, Xiang Tian, Shiqi Liang, Chuanxi Duan, Zijian Hong, Weinan Zhang, Ting Liu
Revista: SmartBot
Vol.: 1, Issue 3 e70003
DOI: 10.1002/smb2.70003