Page d'accueilCentre d'actualités LBank
Nvidia a développé des robots qui s'auto-entraînent grâce à des agents de codage IA
nvidia-built-robots-train-themselves-ai-coding-agents
Nvidia a développé des robots qui s'auto-entraînent grâce à des agents de codage IA
L'ENPIRE de Nvidia confie une flotte entière de robots à des agents de codage comme Codex et Claude Code, leur permettant d'écrire du code d'entraînement, de le tester sur du matériel réel et de s'améliorer sans surveillance humaine.
2026-06-17 Source:decrypt.co

En bref

  • Nvidia, Carnegie Mellon et l'UC Berkeley ont lancé ENPIRE, un cadre qui permet aux agents de codage IA d'exécuter le cycle complet d'apprentissage de nouvelles compétences aux robots sans supervision humaine.
  • Des agents utilisant Codex, Claude Code et Kimi Code ont permis à une flotte de huit robots d'atteindre un taux de réussite de 99 % sur des tâches telles que l'insertion de broches, l'insertion de GPU et la coupe de serre-câbles.
  • Le passage d'un robot à huit a réduit de plus de moitié le temps nécessaire pour maîtriser une tâche, bien que la facture de jetons ait augmenté encore plus rapidement que le temps gagné.

Une flotte de huit bras robotiques du laboratoire GEAR de Nvidia a passé les dernières semaines à apprendre à insérer des broches, à installer des cartes graphiques et à couper des serre-câbles. Les seuls humains impliqués étaient ceux qui ont rédigé l'article par la suite.

Cette compétence provient d'ENPIRE, un cadre détaillé dans un article publié mardi par des chercheurs de Nvidia, de l'Université Carnegie Mellon et de l'UC Berkeley. ENPIRE confie l'intégralité du travail de formation d'un robot à des agents de codage IA, le même logiciel qui écrit et teste déjà son propre code, et leur permet d'exécuter ce processus directement sur du matériel physique.

Les agents de codage comme Codex d'OpenAI, Claude Code d'Anthropic et Kimi Code de Moonshot ont passé la dernière année à exécuter ce que les chercheurs appellent l'autorerecherche – écrire du code, le tester et le réécrire sans intervention humaine. Ce cycle est resté principalement sur un écran, où la réinitialisation d'une expérience ratée ne coûte rien. ENPIRE le transporte dans le monde physique, où la réinitialisation d'une expérience implique de déplacer un bras robotique réel.

Construire l'« Empire »

Le système divise le travail en deux étapes. Dans la première, un humain guide l'agent dans la construction de deux outils permanents : une routine de réinitialisation qui ramène l'espace de travail à une position de départ vierge, et une fonction de récompense qui observe les images de caméra pour évaluer le succès – essentiellement un arbitre qui ne cligne jamais des yeux et ne prend jamais de pause déjeuner. Cette configuration se produit une seule fois, puis est réutilisée pour chaque tentative ultérieure.

Une fois ces outils en place, l'agent prend entièrement le relais. Il recherche des idées dans la littérature publiée, choisit entre des méthodes d'apprentissage telles que l'apprentissage par imitation, l'apprentissage par renforcement ou des règles écrites à la main, puis réécrit son propre code et teste le résultat sur le robot. Rien dans ce cycle ne nécessite la surveillance d'une personne, ce qui est soit libérateur, soit légèrement inquiétant selon ce que l'on pense d'un robot tenant des ciseaux sans supervision.

Nvidia a mené l'expérience sur huit stations robotiques bimanuelles, chacune avec son propre matériel, son ordinateur et son agent de codage. Les stations échangent leurs progrès via Git, le même outil que les codeurs utilisent pour fusionner du code, de sorte qu'une idée gagnante se propage à l'ensemble de la flotte en quelques minutes.

Les chercheurs ont mesuré les résultats sur « Push-T », une tâche où un robot fait glisser un bloc en forme de T dans une zone cible en utilisant uniquement des poussées, et l'insertion de broches, où il enfile des broches dans des trous de 4 millimètres. Le passage d'un robot à huit a réduit le temps de maîtrise de Push-T d'environ cinq heures à deux, et l'insertion de broches de plus de 90 minutes à environ 40.

Sur les quatre tâches du monde réel testées, les agents ont mené leurs politiques à un taux de réussite de 99 %, selon l'article. Pour l'insertion de broches, les agents ont atteint une fiabilité quasi parfaite plus rapidement qu'une méthode comparable impliquant un humain, le genre qui nécessite encore que quelqu'un se présente chaque matin.

Jim Fan de Nvidia, co-directeur du GEAR Lab et responsable de la recherche en IA de l'entreprise, a qualifié le projet d'effort visant à permettre l'AutoResearch dans le monde physique pour la première fois. Fan a déclaré que l'équipe avait confié aux agents une flotte de robots, une allocation de GPU et un budget de jetons, puis s'était retirée pour laisser les robots prendre le contrôle.

Aujourd'hui, nous rendons l'AutoResearch possible dans le monde physique pour la première fois ! Présentation d'ENPIRE : nous donnons à 8 agents Codex une flotte de robots, une allocation de GPU et un budget de jetons généreux. Nous les laissons libres avec un objectif simple : résoudre la tâche aussi vite que possible, garder les robots occupés…

— Jim Fan (@DrJimFan) 16 juin 2026

L'écart entre la simulation et la réalité est apparu presque immédiatement. Les trois agents de codage ont résolu la tâche Push-T dans un simulateur, mais deux d'entre eux ont échoué une fois la même tâche transférée à un robot physique, comme le note l'article.

Les simulateurs n'ont pas de problèmes de friction. Les vraies tables, oui.

Nvidia a également testé ENPIRE dans RoboCasa, un banc d'essai de cuisine simulé qui évalue les robots sur des tâches telles que l'ouverture d'armoires ou l'extinction de cuisinières en fonction du taux de réussite, heureusement sans risque d'incendie. Là, ENPIRE a surpassé à la fois le modèle de bout en bout de Nvidia, GR00T, et CaP-X, un agent utilisateur d'outils qui ignore entièrement la boucle d'autorerecherche.

ENPIRE prolonge une idée que Nvidia avait lancée pour la première fois avec Eureka, un système de 2023 qui utilisait un modèle linguistique pour écrire des fonctions de récompense pour les robots dans un simulateur, au lieu de faire faire ce travail manuellement par des ingénieurs humains. ENPIRE déplace cette boucle d'auto-amélioration du simulateur vers le matériel réel, l'agent concevant ses propres tests plutôt que seulement ses propres récompenses.

Cette publication intervient la même semaine qu'Alibaba a dévoilé sa propre initiative d'IA incarnée, la suite Qwen-Robot, un trio de modèles de base pour la navigation robotique, la manipulation et la simulation physique. Alibaba construit des cerveaux logiciels pour des corps de robots qu'elle ne fabrique pas ; Nvidia teste si les agents peuvent exécuter l'intégralité du cycle de recherche sur du matériel qu'elle possède de bout en bout. Les deux initiatives pointent vers la même tendance : les robots physiques deviennent la prochaine arène de compétition pour les agents de codage.