AcasăCentrul de știri LBank
Nvidia a construit roboți care se auto-antrenează folosind agenți AI de codificare
nvidia-built-robots-train-themselves-ai-coding-agents
Nvidia a construit roboți care se auto-antrenează folosind agenți AI de codificare
ENPIRE de la Nvidia încredințează o întreagă flotă de roboți agenților de programare precum Codex și Claude Code, permițându-le să scrie cod de antrenament, să-l testeze pe hardware real și să se îmbunătățească fără supraveghere umană.
2026-06-17 Sursă:decrypt.co

Pe scurt

  • Nvidia, Carnegie Mellon și UC Berkeley au lansat ENPIRE, un cadru care permite agenților de codare AI să ruleze întregul ciclu de predare a noilor abilități roboților, fără supraveghere umană.
  • Agenți care rulează Codex, Claude Code și Kimi Code au dus o flotă de opt roboți la o rată de succes de 99% în sarcini precum inserarea de pini, inserarea de GPU-uri și tăierea de legături autoblocante.
  • Scalarea de la un robot la opt a redus timpul necesar pentru a stăpâni o sarcină cu mai mult de jumătate, deși costul token-urilor a crescut chiar mai rapid decât timpul economisit.

O flotă de opt brațe robotice din laboratorul GEAR al Nvidia a petrecut ultimele săptămâni învățând să insereze pini, să monteze plăci grafice și să taie legături autoblocante. Singurii oameni implicați au fost cei care au scris lucrarea ulterior.

Abilitatea a venit de la ENPIRE, un cadru detaliat într-o lucrare publicată marți de cercetătorii de la Nvidia, Universitatea Carnegie Mellon și UC Berkeley. ENPIRE încredințează întreaga sarcină de antrenare a unui robot agenților de codare AI, același software care deja își scrie și testează propriul cod, și le permite să ruleze acest proces direct pe hardware fizic.

Agenții de codare precum Codex de la OpenAI, Claude Code de la Anthropic și Kimi Code de la Moonshot au petrecut anul trecut rulând ceea ce cercetătorii numesc autoresearch – scrierea de cod, testarea acestuia și rescrierea lui din nou, fără intervenție umană. Această buclă a rămas în mare parte pe un ecran, unde resetarea unui experiment eșuat nu costă nimic. ENPIRE o trage în lumea fizică, unde resetarea unui experiment înseamnă mișcarea unui braț robotic real.

Construirea „Imperiului”

Sistemul împarte munca în două etape. În prima, un om ghidează agentul în construirea a două instrumente permanente: o rutină de resetare care readuce spațiul de lucru la o poziție inițială proaspătă și o funcție de recompensă care urmărește înregistrarea camerei pentru a evalua succesul – practic un arbitru care nu clipește niciodată și nu ia pauză de masă. Această configurare se face o singură dată, apoi este reutilizată pentru fiecare încercare ulterioară.

Odată ce aceste instrumente există, agentul preia controlul complet. Caută idei în cercetările publicate, alege între metode de antrenament precum învățarea prin imitație, învățarea prin întărire sau reguli scrise manual, apoi își rescrie propriul cod și testează rezultatul pe robot. Nimic din această buclă nu necesită prezența unei persoane, ceea ce este fie eliberator, fie ușor neliniștitor, în funcție de cum te simți în legătură cu un robot care ține foarfece nesupravegheat.

Nvidia a rulat experimentul pe opt stații robotice bimanuale, fiecare cu propriul hardware, computer și agent de codare. Stațiile își transmit progresul prin Git, același instrument pe care programatorii îl folosesc pentru a îmbina codul, astfel încât o idee câștigătoare se răspândește în întreaga flotă în câteva minute.

Cercetătorii au măsurat beneficiile pe „Push-T”, o sarcină în care un robot glisează un bloc în formă de T într-o zonă țintă folosind doar împingeri, și inserarea de pini, unde introduce pini în găuri de 4 milimetri. Scalarea de la un robot la opt a redus timpul necesar pentru a stăpâni Push-T de la aproximativ cinci ore la două, și inserarea de pini de la peste 90 de minute la aproximativ 40.

Pe parcursul celor patru sarcini din lumea reală testate, agenții și-au condus politicile la o rată de succes de 99%, conform lucrării. Pentru inserarea de pini, agenții au atins o fiabilitate aproape perfectă mai rapid decât o metodă comparabilă cu intervenție umană, genul care încă necesită ca cineva să se prezinte în fiecare dimineață.

Jim Fan de la Nvidia, co-liderul GEAR Lab care dirijează cercetarea AI a companiei, a numit proiectul un efort de a permite AutoResearch în lumea fizică pentru prima dată. Fan a declarat că echipa a înmânat agenților o flotă de roboți, o alocare de GPU-uri și un buget de token-uri, apoi s-a dat înapoi și a lăsat roboții să preia controlul.

Astăzi, activăm pentru prima dată AutoResearch în lumea fizică! Vă prezentăm ENPIRE: oferim celor 8 agenți Codex o flotă de roboți, o alocare de GPU-uri și un buget generos de token-uri. I-am eliberat cu un scop simplu: să rezolve sarcina cât mai repede posibil, să mențină roboții ocupați… pic.twitter.com/zC0OQNzDBs

— Jim Fan (@DrJimFan) June 16, 2026

Decalajul dintre simulare și realitate a apărut aproape imediat. Toți cei trei agenți de codare au rezolvat Push-T într-un simulator, dar doi dintre ei au eșuat odată ce aceeași sarcină a fost mutată pe un robot fizic, notează lucrarea.

Simulatoarele nu au probleme de frecare. Mesele reale au.

Nvidia a testat ENPIRE și în RoboCasa, un benchmark simulat de bucătărie care evaluează roboții în sarcini precum deschiderea dulapurilor sau oprirea aragazurilor în funcție de rata de succes, în mod fericit fără niciun risc de a incendia locul. Acolo, ENPIRE a depășit atât modelul end-to-end propriu al Nvidia, GR00T, cât și CaP-X, un agent care folosește instrumente și care omite complet bucla de autoresearch.

ENPIRE extinde o idee pe care Nvidia a lansat-o inițial cu Eureka, un sistem din 2023 care folosea un model lingvistic pentru a scrie funcții de recompensă pentru roboți într-un simulator, în loc ca inginerii umani să o facă manual. ENPIRE mută acea buclă de auto-îmbunătățire de pe simulator pe hardware real, agentul proiectându-și propriile teste, nu doar propriile recompense.

Lansarea are loc în aceeași săptămână în care Alibaba și-a dezvăluit propria inițiativă AI întruchipată, Qwen-Robot Suite, un trio de modele fundamentale pentru navigarea, manipularea și simularea fizică a roboților. Alibaba construiește creiere software pentru corpuri de roboți pe care nu le produce; Nvidia testează dacă agenții pot rula întregul ciclu de cercetare pe hardware pe care îl deține integral. Ambele indică aceeași tendință: roboții fizici devin următoarea arenă pentru competiția agenților de codare.