PangunaLBank News Center
Nvidia Nagtayo ng mga Robot na Nagsasanay sa Sarili Gamit ang AI Coding Agents
nvidia-built-robots-train-themselves-ai-coding-agents
Nvidia Nagtayo ng mga Robot na Nagsasanay sa Sarili Gamit ang AI Coding Agents
Ang ENPIRE ng Nvidia ay nagbibigay ng isang buong pangkat ng robot sa mga coding agent tulad ng Codex at Claude Code, na nagpapahintulot sa kanila na magsulat ng training code, subukan ito sa totoong hardware, at pagbutihin nang walang pagmamasid ng tao.
2026-06-17 Pinagmulan:decrypt.co

Sa maikling salita

  • Inilabas ng Nvidia, Carnegie Mellon, at UC Berkeley ang ENPIRE, isang framework na nagpapahintulot sa mga AI coding agent na kumpletuhin ang proseso ng pagtuturo ng mga bagong kasanayan sa mga robot nang walang pangangasiwa ng tao.
  • Ang mga agent na gumagamit ng Codex, Claude Code, at Kimi Code ay nagpatakbo ng walong robot na fleet na umabot sa 99% success rate sa mga gawain tulad ng pagpasok ng pin, pagpasok ng GPU, at pagputol ng zip-tie.
  • Ang pag-scale mula sa isang robot patungo sa walo ay nagpabilis ng higit sa kalahati sa oras na kailangan upang makabisado ang isang gawain, bagama't mas mabilis lumaki ang bayarin sa token kaysa sa oras na natipid.

Isang fleet ng walong robot arm sa GEAR lab ng Nvidia ang gumugol ng nakaraang ilang linggo sa pagtuturo sa kanilang sarili na magpasok ng mga pin, maglagay ng mga graphics card, at magputol ng mga zip tie. Ang mga tao lamang na sangkot ay ang mga sumulat ng papel pagkatapos.

Ang kasanayan ay nagmula sa ENPIRE, isang framework na detalyado sa isang papel na inilathala noong Martes ng mga mananaliksik sa Nvidia, Carnegie Mellon University, at UC Berkeley. Ibinigay ng ENPIRE ang buong trabaho ng pagtuturo sa isang robot sa mga AI coding agent, ang parehong software na nagsusulat at nagte-test na ng sarili nitong code, at pinapayagan silang patakbuhin ang prosesong iyon nang direkta sa pisikal na hardware.

Ang mga coding agent tulad ng Codex ng OpenAI, Claude Code ng Anthropic, at Kimi Code ng Moonshot ay gumugol ng nakaraang taon sa pagpapatakbo ng tinatawag ng mga mananaliksik na autoresearch—pagsusulat ng code, pagte-test nito, at muling pagsusulat nito nang walang tao sa loop. Ang loop na iyon ay nanatili sa screen, kung saan ang pag-reset ng isang nabigong eksperimento ay walang gastos. Iginuhit ng ENPIRE ito sa pisikal na mundo, kung saan ang pag-reset ng isang eksperimento ay nangangahulugang paggalaw ng isang aktwal na robot arm.

Pagbuo ng ‘Enpire’

Hinihiwalay ng sistema ang trabaho sa dalawang yugto. Sa una, ginagabayan ng isang tao ang agent sa pagbuo ng dalawang permanenteng tool: isang reset routine na nagbabalik sa workspace sa isang sariwang panimulang posisyon, at isang reward function na nagbabantay sa footage ng camera upang sukatin ang tagumpay—sa esensya, isang referee na hindi kumukurap at hindi nagpapahinga. Isang beses lang nangyayari ang setup na iyon, pagkatapos ay ginagamit muli para sa bawat susunod na pagsubok.

Kapag mayroon na ang mga tool na iyon, ganap nang kumilos ang agent. Naghahanap ito ng mga ideya sa mga nailathalang pananaliksik, pumipili sa pagitan ng mga paraan ng pagsasanay tulad ng imitation learning, reinforcement learning, o mga panuntunang sulat-kamay, pagkatapos ay muling isinusulat ang sarili nitong code at sinusuri ang resulta sa robot. Walang anumang sa loop na iyon ang nangangailangan ng tao na manood, na maaaring nakapagpapalaya o bahagyang nakakabahala depende sa kung ano ang iyong pakiramdam tungkol sa isang robot na humahawak ng gunting nang walang pangangasiwa.

Isinagawa ng Nvidia ang eksperimento sa walong bimanual robot station, bawat isa ay may sariling hardware, computer, at coding agent. Nagpapalitan ng progreso ang mga station sa pamamagitan ng Git, ang parehong tool na ginagamit ng mga programmer upang pagsamahin ang code, kaya ang isang matagumpay na ideya ay mabilis na kumakalat sa buong fleet sa loob ng ilang minuto.

Sinukat ng mga mananaliksik ang benepisyo sa “Push-T,” isang gawain kung saan ang isang robot ay nagpapadulas ng isang T-shaped block sa isang target zone gamit lamang ang pagtulak, at pin insertion, kung saan ito ay naghuhulog ng mga pin sa 4-millimeter na butas. Ang pag-scale mula sa isang robot patungo sa walo ay nagpababa ng oras upang makabisado ang Push-T mula humigit-kumulang limang oras sa dalawa, at ang pin insertion mula sa mahigit 90 minuto sa humigit-kumulang 40.

Sa apat na real-world na gawain na sinubukan, inabot ng mga agent ang kanilang mga patakaran sa 99% success rate, ayon sa papel. Para sa pagpasok ng pin, naabot ng mga agent ang halos perpektong pagiging maaasahan nang mas mabilis kaysa sa isang katulad na human-in-the-loop method, ang uri na kailangan pa rin ng isang tao na magpakita tuwing umaga.

Tinawag ni Jim Fan ng Nvidia, ang co-lead ng GEAR Lab na nagdidirekta sa pananaliksik ng AI ng kumpanya, ang proyekto bilang isang pagsisikap na paganahin ang AutoResearch sa pisikal na mundo sa unang pagkakataon. Sinabi ni Fan na ibinigay ng team sa mga agent ang isang fleet ng mga robot, isang alokasyon ng GPU, at isang token budget, pagkatapos ay huminto at hinayaan ang mga robot na magpatuloy.

Today, we enable AutoResearch in the physical world for the first time! Introducing ENPIRE: we give 8 Codex agents a fleet of robots, an allocation of GPUs, and generous token budget. We set them free with a simple goal: solve the task as quickly as possible, keep the robots busy… pic.twitter.com/zC0OQNzDBs

— Jim Fan (@DrJimFan) June 16, 2026

Agad na lumabas ang agwat sa pagitan ng simulation at realidad. Ang lahat ng tatlong coding agent ay nalutas ang Push-T sa loob ng isang simulator, ngunit dalawa sa tatlo ang nabigo nang ilipat ang parehong gawain sa isang pisikal na robot, ayon sa tala ng papel.

Ang mga simulator ay walang problema sa friction. Ang mga totoong lamesa ay mayroon.

Sinubukan din ng Nvidia ang ENPIRE sa loob ng RoboCasa, isang simulated kitchen benchmark na sumusukat sa mga robot sa mga gawain tulad ng pagbubukas ng mga cabinet o pagpatay ng mga kalan ayon sa success rate, sa kabutihang-palad nang walang anumang panganib na masunog ang lugar. Doon, nalampasan ng ENPIRE ang parehong end-to-end model ng Nvidia na GR00T at CaP-X, isang tool-using agent na nilalampasan ang autoresearch loop nang buo.

Pinalawak ng ENPIRE ang ideya na unang inilabas ng Nvidia sa Eureka, isang sistema noong 2023 na gumamit ng language model upang magsulat ng mga reward function para sa mga robot sa loob ng isang simulator sa halip na gawin ito ng mga inhinyero ng tao. Inilipat ng ENPIRE ang self-improvement loop na iyon mula sa simulator patungo sa totoong hardware, kung saan ang agent ang nagdidisenyo ng sarili nitong mga pagsubok sa halip na sarili nitong mga rewards.

Ang paglabas ay naganap sa parehong linggo kung kailan inilabas ng Alibaba ang sarili nitong embodied-AI push, ang Qwen-Robot Suite, isang trio ng mga foundation model para sa robot navigation, manipulation, at physics simulation. Gumagawa ang Alibaba ng mga software brain para sa mga robot body na hindi nito ginagawa; sinusubukan ng Nvidia kung ang mga agent ay kayang patakbuhin ang buong research loop sa hardware na pag-aari nito mula simula hanggang dulo. Parehong tumuturo ito sa parehong trend: ang mga pisikal na robot ay nagiging susunod na arena para pagkompitensyahan ng mga coding agent.