InicioCentro de noticias de LBank
Nvidia Construyó Robots que se Autoentrenan Usando Agentes de Codificación de IA
nvidia-built-robots-train-themselves-ai-coding-agents
Nvidia Construyó Robots que se Autoentrenan Usando Agentes de Codificación de IA
ENPIRE de Nvidia pone toda una flota de robots en manos de agentes de codificación como Codex y Claude Code, permitiéndoles escribir código de entrenamiento, probarlo en hardware real y mejorar sin supervisión humana.
2026-06-17 Fuente:decrypt.co

En resumen

  • Nvidia, Carnegie Mellon y UC Berkeley han lanzado ENPIRE, un framework que permite a los agentes de codificación de IA ejecutar el ciclo completo de enseñanza de nuevas habilidades a robots sin supervisión humana.
  • Agentes que ejecutan Codex, Claude Code y Kimi Code llevaron una flota de ocho robots a una tasa de éxito del 99% en tareas que incluyen la inserción de pines, la inserción de GPU y el corte de bridas.
  • Escalar de un robot a ocho redujo el tiempo necesario para dominar una tarea en más de la mitad, aunque la factura de tokens creció aún más rápido que el tiempo ahorrado.

Una flota de ocho brazos robóticos en el laboratorio GEAR de Nvidia pasó las últimas semanas aprendiendo a insertar pines, colocar tarjetas gráficas y cortar bridas. Los únicos humanos involucrados fueron los que escribieron el artículo después.

La habilidad provino de ENPIRE, un framework detallado en un artículo publicado el martes por investigadores de Nvidia, la Universidad Carnegie Mellon y UC Berkeley. ENPIRE entrega toda la tarea de entrenar un robot a agentes de codificación de IA, el mismo software que ya escribe y prueba su propio código, y les permite ejecutar ese proceso directamente en hardware físico.

Agentes de codificación como Codex de OpenAI, Claude Code de Anthropic y Kimi Code de Moonshot han pasado el último año ejecutando lo que los investigadores llaman "auto-investigación" —escribiendo código, probándolo y reescribiéndolo de nuevo sin intervención humana. Ese ciclo se ha mantenido mayormente en una pantalla, donde reiniciar un experimento fallido no cuesta nada. ENPIRE lo lleva al mundo físico, donde reiniciar un experimento significa mover un brazo robótico real.

Construyendo el 'Enpire'

El sistema divide el trabajo en dos etapas. En la primera, un humano guía al agente para construir dos herramientas permanentes: una rutina de reinicio que devuelve el espacio de trabajo a una posición inicial fresca, y una función de recompensa que observa las imágenes de la cámara para calificar el éxito —básicamente un árbitro que nunca parpadea y nunca toma un descanso para almorzar. Esa configuración se realiza una vez y luego se reutiliza para cada intento posterior.

Una vez que esas herramientas existen, el agente toma el control por completo. Busca ideas en investigaciones publicadas, elige entre métodos de entrenamiento como aprendizaje por imitación, aprendizaje por refuerzo o reglas escritas a mano, luego reescribe su propio código y prueba el resultado en el robot. Nada en ese ciclo requiere que una persona observe, lo cual es liberador o ligeramente inquietante, dependiendo de cómo se sienta uno acerca de un robot sosteniendo tijeras sin supervisión.

Nvidia realizó el experimento en ocho estaciones robóticas bimanuales, cada una con su propio hardware, computadora y agente de codificación. Las estaciones intercambian progreso a través de Git, la misma herramienta que usan los programadores para fusionar código, por lo que una idea exitosa se extiende a toda la flota en cuestión de minutos.

Los investigadores midieron el resultado en "Push-T", una tarea en la que un robot desliza un bloque en forma de T hacia una zona objetivo usando solo empujes, y la inserción de pines, donde enrosca pines en agujeros de 4 milímetros. Escalar de un robot a ocho redujo el tiempo para dominar Push-T de aproximadamente cinco horas a dos, y la inserción de pines de más de 90 minutos a unos 40.

En las cuatro tareas del mundo real probadas, los agentes llevaron sus políticas a una tasa de éxito del 99%, según el artículo. Para la inserción de pines, los agentes alcanzaron una fiabilidad casi perfecta más rápido que un método comparable con humanos en el ciclo, del tipo que todavía necesita que alguien se presente todas las mañanas.

Jim Fan de Nvidia, co-líder del GEAR Lab y director de investigación de IA de la compañía, calificó el proyecto como un esfuerzo para habilitar la auto-investigación en el mundo físico por primera vez. Fan dijo que el equipo entregó a los agentes una flota de robots, una asignación de GPU y un presupuesto de tokens, luego se hicieron a un lado y dejaron que los robots tomaran el control.

Today, we enable AutoResearch in the physical world for the first time! Introducing ENPIRE: we give 8 Codex agents a fleet of robots, an allocation of GPUs, and generous token budget. We set them free with a simple goal: solve the task as quickly as possible, keep the robots busy… pic.twitter.com/zC0OQNzDBs

— Jim Fan (@DrJimFan) June 16, 2026

La brecha entre la simulación y la realidad se hizo evidente casi de inmediato. Los tres agentes de codificación resolvieron Push-T dentro de un simulador, pero dos de los tres fallaron una vez que la misma tarea se trasladó a un robot físico, señala el artículo.

Los simuladores no tienen problemas de fricción. Las mesas reales sí.

Nvidia también probó ENPIRE dentro de RoboCasa, un banco de pruebas de cocina simulado que califica a los robots en tareas como abrir gabinetes o apagar estufas por su tasa de éxito, afortunadamente sin riesgo de quemar el lugar. Allí, ENPIRE superó tanto al modelo de extremo a extremo propio de Nvidia, GR00T, como a CaP-X, un agente que usa herramientas y que omite por completo el ciclo de auto-investigación.

ENPIRE extiende una idea que Nvidia propuso por primera vez con Eureka, un sistema de 2023 que usaba un modelo de lenguaje para escribir funciones de recompensa para robots dentro de un simulador en lugar de que ingenieros humanos lo hicieran a mano. ENPIRE traslada ese ciclo de auto-mejora del simulador al hardware real, con el agente diseñando sus propias pruebas en lugar de solo sus propias recompensas.

El lanzamiento se produce la misma semana en que Alibaba presentó su propio impulso de IA encarnada, el Qwen-Robot Suite, un trío de modelos fundamentales para la navegación de robots, la manipulación y la simulación física. Alibaba está construyendo cerebros de software para cuerpos de robots que no fabrica; Nvidia está probando si los agentes pueden ejecutar todo el ciclo de investigación en hardware que posee de principio a fin. Ambos apuntan a la misma tendencia: los robots físicos se están convirtiendo en la próxima arena para que los agentes de codificación compitan.