Com informações do Instituto Harbin de Tecnologia - 08/05/2026

Robôs com inteligência artificial
Embora os avanços na inteligência artificial (IA) venham demonstrando capacidades notáveis no processamento de linguagem, visão e fala, essas tecnologias são tipicamente incorpóreas, desmaterializadas, virtuais.
Mas essa natureza incorpórea é insuficiente para a criação dos robôs inteligentes de propósito geral frequentemente imaginados na ficção científica.
Imagine, por exemplo, que você queira uma tarefa realizada e então dê a instrução: "Limpe o quarto". Uma IA clássica, incorpórea, consegue processar partes dessa tarefa: Ela pode interpretar o áudio (fala), entender o significado do comando (PNL) e detectar objetos em uma imagem estática (visão computacional). No entanto, a coisa acaba aí, justamente onde as capacidades da IA terminam, em uma análise passiva.
Um agente corpóreo, uma IA incorporada em um robô físico, por outro lado, precisa resolver o problema por completo. Isso deverá começar com a "percepção incorporada": À medida que o robô se move, ele percebe muito mais informações do que uma visão estática permite (por exemplo, encontrar um brinquedo escondido atrás de uma caixa). Em seguida, ele deverá usar a "tomada de decisão incorporada", conhecendo a sequência correta (por exemplo, jogar o lixo fora antes de organizar os brinquedos) e como lidar com problemas (como procurar um item perdido). Finalmente, o robô precisará realizar a "execução incorporada", os atos físicos de andar, pegar uma garrafa, abrir uma porta e, claro, fazer a limpeza.
Não é preciso recorrer à IA virtual para saber o quanto estamos longe da IA física. Mas é preciso começar o trabalho, por isso uma equipe do Instituto Harbin de Tecnologia, na China, fez um levantamento abrangente sobre a "IA Incorporada", mapeando sistematicamente o campo para orientar as pesquisas que deverão preencher a lacuna entre a análise passiva e a inteligência comportamental.
Rumo à IA Incorporada
Os autores propõem que alcançar um comportamento inteligente em um robô é um processo que pode ser categorizado em três módulos.

A estrutura começa com a Percepção Incorporada, que os autores categorizam com base em sua relação com o comportamento do robô.
Tudo começa com a "percepção para comportamento", que se concentra nas tarefas de percepção utilizadas principalmente para as ações do robô. Isso inclui a percepção de objetos - sentir a forma geométrica, a estrutura articulada e as propriedades físicas de um objeto para permitir a manipulação - e a percepção da cena, que envolve a construção de modelos do ambiente, como mapas métricos ou topológicos, para orientar a mobilidade. A segunda área, mais distinta, é o "comportamento para percepção", que envolve incorporar o próprio comportamento do robô ao processo de percepção. Um agente deverá usar a mobilidade para se mover ativamente e obter mais informações sobre objetos e cenários, ou usar a manipulação para interagir com um objeto e descobrir suas propriedades, como sua estrutura articulada.

O segundo módulo, a Tomada de Decisão Incorporada, aborda como o agente precisará gerar uma sequência de comportamentos para completar uma instrução humana com base em suas observações.
O estudo categoriza essa etapa crucial em dois domínios principais: Navegação e Planejamento de Tarefas. A Navegação envolve o raciocínio de uma sequência de comandos de mobilidade (por exemplo, "virar à esquerda", "seguir em frente") para se mover por um ambiente, enquanto o Planejamento de Tarefas gera uma sequência de habilidades de manipulação (por exemplo, "abrir o micro-ondas", "pegar a garrafa"), incluindo etapas de navegação integradas. Os pesquisadores enfatizam que o desafio fundamental neste módulo é a ancoragem no mundo real: Ao contrário da tomada de decisão puramente digital, um agente incorporado deve levar em conta inúmeros desafios do mundo real, como viabilidade física, as "potencialidades" do objeto (relações entre o objeto e o agente) e as pré-condições.

O módulo final, a Execução Incorporada, deverá traduzir a decisão gerada em ação física. Neste estudo, os pesquisadores focaram na aprendizagem de habilidades de manipulação, definindo-a como a aprendizagem de uma política comportamental que mapeia descrições de habilidades e observações ambientais para uma ação concreta, tipicamente uma trajetória de 7 graus de liberdade independente da corporeidade - nas avaliações, os pesquisadores usaram o caso de um braço robótico.
Atualmente existem duas abordagens algorítmicas principais sendo utilizadas para treinar uma política desse tipo: Aprendizagem por Imitação, que aprende com demonstrações humanas, e Aprendizagem por Reforço, que aprende por meio da interação por tentativa e erro. O principal problema nesta área está em alcançar a generalização, atingindo as capacidades em diversos objetos, cenários, habilidades e instruções. Mais recentemente, tem-se percebido uma tendência nesse esforço: Uma mudança do treinamento de modelos isolados de habilidade única para o desenvolvimento de Modelos de Execução de Propósito Geral, que, como uma aplicação direta dos grandes modelos de linguagem multimodais, conseguem lidar com múltiplas habilidades em um único modelo.

A equipe espera que essa estrutura abrangente de três módulos permita estruturar o panorama das pesquisas científicas e tecnológicas na área, que poderá enfrentar sistematicamente os principais desafios seguindo um roteiro claro rumo à criação de agentes inteligentes de propósito geral incorporados - robôs com sua própria IA.