Agregação de Tags de Notícias Cripto e Conteúdo Temático

nvidia-built-robots-train-themselves-ai-coding-agents

Nvidia Construiu Robôs que Se Treinam Usando Agentes de Codificação de IA

O ENPIRE da Nvidia entrega uma frota inteira de robôs a agentes de codificação como Codex e Claude Code, permitindo que eles escrevam código de treinamento, o testem em hardware real e melhorem sem a supervisão humana.

2026-06-17 Fonte:decrypt.co

Em resumo

Nvidia, Carnegie Mellon e UC Berkeley lançaram o ENPIRE, uma estrutura que permite que agentes de codificação de IA executem o ciclo completo de ensino de novas habilidades a robôs sem supervisão humana.
Agentes usando Codex, Claude Code e Kimi Code impulsionaram uma frota de oito robôs a uma taxa de sucesso de 99% em tarefas como inserção de pinos, instalação de GPUs e corte de abraçadeiras.
A escalada de um para oito robôs reduziu o tempo necessário para dominar uma tarefa em mais da metade, embora o custo dos tokens tenha crescido ainda mais rápido do que o tempo economizado.

Uma frota de oito braços robóticos no laboratório GEAR da Nvidia passou as últimas semanas aprendendo a inserir pinos, encaixar placas gráficas e cortar abraçadeiras. Os únicos humanos envolvidos foram aqueles que escreveram o artigo posteriormente.

A habilidade veio do ENPIRE, uma estrutura detalhada em um artigo publicado na terça-feira por pesquisadores da Nvidia, Carnegie Mellon University e UC Berkeley. O ENPIRE entrega todo o trabalho de treinamento de um robô a agentes de codificação de IA, o mesmo software que já escreve e testa seu próprio código, e permite que eles executem esse processo diretamente em hardware físico.

Agentes de codificação como o Codex da OpenAI, o Claude Code da Anthropic e o Kimi Code da Moonshot passaram o último ano executando o que os pesquisadores chamam de auto-pesquisa — escrevendo código, testando-o e reescrevendo-o novamente sem a intervenção humana. Esse ciclo permaneceu principalmente em uma tela, onde reiniciar um experimento falho não custa nada. O ENPIRE o arrasta para o mundo físico, onde reiniciar um experimento significa mover um braço robótico real.

Construindo o ‘Enpire’

O sistema divide o trabalho em duas etapas. Na primeira, um humano guia o agente na construção de duas ferramentas permanentes: uma rotina de reinício que retorna o espaço de trabalho a uma posição inicial, e uma função de recompensa que monitora imagens de câmera para pontuar o sucesso — basicamente um árbitro que nunca pisca e nunca faz uma pausa para o almoço. Essa configuração ocorre uma única vez e é então reutilizada para cada tentativa subsequente.

Uma vez que essas ferramentas existem, o agente assume completamente. Ele pesquisa ideias em publicações, escolhe entre métodos de treinamento como aprendizado por imitação, aprendizado por reforço ou regras escritas manualmente, e então reescreve seu próprio código e testa o resultado no robô. Nada nesse ciclo exige a observação humana, o que é libertador ou ligeiramente inquietante, dependendo de como você se sente sobre um robô segurando tesouras sem supervisão.

A Nvidia realizou o experimento em oito estações robóticas bimanual, cada uma com seu próprio hardware, computador e agente de codificação. As estações trocam progresso via Git, a mesma ferramenta que os programadores usam para mesclar código, de modo que uma ideia vencedora se espalha por toda a frota em minutos.

Pesquisadores mediram o resultado em “Push-T”, uma tarefa onde um robô desliza um bloco em forma de T para uma zona alvo usando apenas empurrões, e na inserção de pinos, onde ele encaixa pinos em furos de 4 milímetros. A escalada de um para oito robôs reduziu o tempo para dominar o Push-T de aproximadamente cinco para duas horas, e a inserção de pinos de mais de 90 para cerca de 40 minutos.

Nas quatro tarefas do mundo real testadas, os agentes levaram suas políticas a uma taxa de sucesso de 99%, de acordo com o artigo. Para a inserção de pinos, os agentes alcançaram confiabilidade quase perfeita mais rapidamente do que um método comparável com intervenção humana, do tipo que ainda precisa de alguém para aparecer todas as manhãs.

Jim Fan, co-líder do GEAR Lab da Nvidia e diretor de pesquisa de IA da empresa, chamou o projeto de um esforço para possibilitar a AutoPesquisa no mundo físico pela primeira vez. Fan disse que a equipe entregou aos agentes uma frota de robôs, uma alocação de GPU e um orçamento de tokens, e então se afastou e deixou os robôs assumirem o controle.

Today, we enable AutoResearch in the physical world for the first time! Introducing ENPIRE: we give 8 Codex agents a fleet of robots, an allocation of GPUs, and generous token budget. We set them free with a simple goal: solve the task as quickly as possible, keep the robots busy… pic.twitter.com/zC0OQNzDBs

— Jim Fan (@DrJimFan) June 16, 2026

A lacuna entre simulação e realidade apareceu quase imediatamente. Os três agentes de codificação resolveram o Push-T em um simulador, mas dois dos três falharam quando a mesma tarefa foi transferida para um robô físico, observa o artigo.

Simuladores não têm problemas de atrito. Mesas reais, sim.

A Nvidia também testou o ENPIRE dentro do RoboCasa, um benchmark de cozinha simulada que avalia robôs em tarefas como abrir armários ou desligar fogões pela taxa de sucesso, felizmente sem qualquer risco de incendiar o local. Lá, o ENPIRE superou tanto o modelo end-to-end GR00T da Nvidia quanto o CaP-X, um agente de uso de ferramentas que ignora completamente o ciclo de auto-pesquisa.

O ENPIRE expande uma ideia que a Nvidia apresentou pela primeira vez com o Eureka, um sistema de 2023 que usava um modelo de linguagem para escrever funções de recompensa para robôs dentro de um simulador, em vez de engenheiros humanos fazerem isso manualmente. O ENPIRE move esse ciclo de auto-melhoria do simulador para hardware real, com o agente projetando seus próprios testes em vez de apenas suas próprias recompensas.

O lançamento ocorre na mesma semana em que a Alibaba revelou sua própria iniciativa de IA encarnada, a Qwen-Robot Suite, um trio de modelos de fundação para navegação robótica, manipulação e simulação de física. A Alibaba está construindo cérebros de software para corpos robóticos que ela não fabrica; a Nvidia está testando se os agentes podem executar todo o ciclo de pesquisa em hardware que ela possui de ponta a ponta. Ambos apontam para a mesma tendência: robôs físicos estão se tornando a próxima arena para a competição de agentes de codificação.