HomeLBank Nieuwscentrum
Nvidia heeft robots gebouwd die zichzelf trainen met AI-codeeragenten
nvidia-built-robots-train-themselves-ai-coding-agents
Nvidia heeft robots gebouwd die zichzelf trainen met AI-codeeragenten
Nvidia's ENPIRE geeft een hele robotvloot aan coderingsagents zoals Codex en Claude Code, waardoor ze trainingscode kunnen schrijven, deze testen op echte hardware en verbeteren zonder menselijke supervisie.
2026-06-17 Bron:decrypt.co

In het kort

  • Nvidia, Carnegie Mellon en UC Berkeley hebben ENPIRE gelanceerd, een framework waarmee AI-coderingsagenten de volledige cyclus van het aanleren van nieuwe vaardigheden aan robots zonder menselijke supervisie kunnen uitvoeren.
  • Agenten die Codex, Claude Code en Kimi Code gebruikten, zorgden ervoor dat een vloot van acht robots een succespercentage van 99% behaalde bij taken zoals het plaatsen van pinnen, het plaatsen van GPU's en het knippen van tie-wraps.
  • Opschaling van één naar acht robots halveerde de tijd die nodig was om een taak onder de knie te krijgen, hoewel de tokenrekening nog sneller steeg dan de bespaarde tijd.

Een vloot van acht robotarmen in Nvidia's GEAR-laboratorium heeft de afgelopen weken zichzelf geleerd om pinnen in te voegen, grafische kaarten te plaatsen en tie-wraps door te knippen. De enige mensen die betrokken waren, waren degenen die achteraf het paper schreven.

De vaardigheid kwam van ENPIRE, een framework dat dinsdag in een paper is beschreven door onderzoekers van Nvidia, Carnegie Mellon University en UC Berkeley. ENPIRE draagt de volledige taak van het trainen van een robot over aan AI-coderingsagenten, dezelfde software die al zijn eigen code schrijft en test, en laat ze dat proces direct uitvoeren op fysieke hardware.

Coderingsagenten zoals OpenAI's Codex, Anthropic's Claude Code en Moonshot's Kimi Code hebben het afgelopen jaar 'autoresearch' uitgevoerd – het schrijven van code, deze testen en opnieuw herschrijven zonder menselijke tussenkomst. Die cyclus bleef meestal beperkt tot een scherm, waar het resetten van een mislukt experiment niets kost. ENPIRE brengt dit naar de fysieke wereld, waar het resetten van een experiment betekent dat een echte robotarm moet worden verplaatst.

Het bouwen van het ‘Enpire’

Het systeem verdeelt het werk in twee fasen. In de eerste fase begeleidt een mens de agent bij het bouwen van twee permanente tools: een resetroutine die de werkruimte terugbrengt naar een frisse startpositie, en een beloningsfunctie die camerabeelden bekijkt om succes te scoren – eigenlijk een scheidsrechter die nooit knippert en nooit lunchpauze neemt. Deze setup gebeurt eenmaal en wordt vervolgens hergebruikt voor elke volgende poging.

Zodra die tools bestaan, neemt de agent het volledig over. Het doorzoekt gepubliceerde onderzoeken naar ideeën, kiest tussen trainingsmethoden zoals imitation learning, reinforcement learning of handgeschreven regels, herschrijft vervolgens zijn eigen code en test het resultaat op de robot. Niets in die cyclus vereist dat een mens toekijkt, wat bevrijdend of licht verontrustend kan zijn, afhankelijk van hoe je denkt over een robot die onbeheerd een schaar vasthoudt.

Nvidia voerde het experiment uit op acht bimanuele robotstations, elk met zijn eigen hardware, computer en coderingsagent. De stations wisselen voortgang uit via Git, dezelfde tool die programmeurs gebruiken om code samen te voegen, zodat een winnend idee binnen enkele minuten vlootbreed wordt verspreid.

Onderzoekers maten de opbrengst bij "Push-T", een taak waarbij een robot een T-vormig blok in een doelzone schuift met alleen duwen, en pininvoeging, waarbij pinnen in gaten van 4 millimeter worden gestoken. Opschaling van één naar acht robots verkortte de tijd om Push-T onder de knie te krijgen van ongeveer vijf uur naar twee, en pininvoeging van meer dan 90 minuten naar ongeveer 40.

Voor de vier geteste taken in de echte wereld bereikten de agenten een succespercentage van 99%, volgens het paper. Voor pininvoeging bereikten de agenten bijna perfecte betrouwbaarheid sneller dan een vergelijkbare methode met menselijke tussenkomst, het soort dat nog steeds vereist dat iemand elke ochtend opdaagt.

Jim Fan van Nvidia, mede-leider van het GEAR Lab en directeur AI-onderzoek van het bedrijf, noemde het project een poging om voor het eerst AutoResearch in de fysieke wereld mogelijk te maken. Fan zei dat het team de agenten een vloot robots, een GPU-allocatie en een tokenbudget gaf, en vervolgens een stap terugdeed en de robots het liet overnemen.

Today, we enable AutoResearch in the physical world for the first time! Introducing ENPIRE: we give 8 Codex agents a fleet of robots, an allocation of GPUs, and generous token budget. We set them free with a simple goal: solve the task as quickly as possible, keep the robots busy… pic.twitter.com/zC0OQNzDBs

— Jim Fan (@DrJimFan) June 16, 2026

Het verschil tussen simulatie en realiteit kwam bijna onmiddellijk aan het licht. Alle drie de coderingsagenten losten Push-T op in een simulator, maar twee van de drie faalden toen dezelfde taak naar een fysieke robot werd verplaatst, merkt het paper op.

Simulatoren hebben geen wrijvingsproblemen. Echte tafels wel.

Nvidia testte ENPIRE ook in RoboCasa, een gesimuleerde keukenbenchmark die robots scoort op taken zoals het openen van kasten of het uitschakelen van fornuizen op basis van het succespercentage, gelukkig zonder het risico om de boel af te branden. Daar presteerde ENPIRE beter dan Nvidia's eigen end-to-end model GR00T en CaP-X, een tool-gebruikende agent die de autoresearch-lus volledig overslaat.

ENPIRE bouwt voort op een idee dat Nvidia voor het eerst lanceerde met Eureka, een systeem uit 2023 dat een taalmodel gebruikte om beloningsfuncties voor robots in een simulator te schrijven, in plaats van dit handmatig door menselijke ingenieurs te laten doen. ENPIRE verplaatst die zelfverbeteringslus van de simulator naar echte hardware, waarbij de agent zijn eigen tests ontwerpt in plaats van alleen zijn eigen beloningen.

De release valt in dezelfde week dat Alibaba zijn eigen embodied-AI-initiatief onthulde, de Qwen-Robot Suite, een drietal fundamentele modellen voor robotnavigatie, -manipulatie en -fysicasimulatie. Alibaba bouwt softwarebreinen voor robotlichamen die het niet zelf produceert; Nvidia onderzoekt of agenten de hele onderzoekscyclus kunnen uitvoeren op hardware die het van begin tot eind bezit. Beide wijzen op dezelfde trend: fysieke robots worden de volgende arena waar coderingsagenten de strijd met elkaar aangaan.