
輝達GEAR實驗室的八個機器人手臂機隊在過去幾週內,自行學習了插針、安裝顯示卡和剪斷束帶。唯一參與其中的人類,只有那些事後撰寫論文的人。
這項技能來自ENPIRE,一個由輝達、卡內基美隆大學和加州大學柏克萊分校的研究人員於週二發表論文所詳述的框架。ENPIRE將訓練機器人的整個工作交給AI編碼代理人,這些代理人正是已能自行編寫和測試程式碼的軟體,並讓它們直接在實體硬體上運行這個過程。
OpenAI的Codex、Anthropic的Claude Code和Moonshot的Kimi Code等編碼代理人,在過去一年中一直在執行研究人員所謂的「自動研究」——在沒有人類干預的情況下,自行編寫程式碼、測試並重寫。這個循環大部分都停留在螢幕上,失敗的實驗重置成本為零。ENPIRE則將這個循環帶入實體世界,在實體世界中,重置實驗意味著移動一個真正的機器人手臂。
該系統將工作分為兩個階段。在第一階段,人類引導代理人建立兩個永久性工具:一個將工作區重置回初始狀態的重置程序,以及一個透過監控攝影機畫面來評估成功的獎勵函數——基本上就是一個從不眨眼、從不休息的裁判。這個設定只發生一次,然後會重複用於後續的每一次嘗試。
一旦這些工具存在,代理人就會完全接管。它會搜尋已發表的研究來尋找靈感,在模仿學習、強化學習或手寫規則等訓練方法中進行選擇,然後重寫自己的程式碼並在機器人上測試結果。這個循環中沒有任何部分需要人類監督,這既令人解放,又有些令人不安,取決於你對機器人無人監督地拿著剪刀的感受如何。
輝達在八個雙臂機器人工作站上進行了實驗,每個工作站都有自己的硬體、電腦和編碼代理人。這些工作站透過Git(程式設計師用於合併程式碼的相同工具)交換進度,因此一個成功的想法會在幾分鐘內擴散到整個機隊。
研究人員衡量了在「Push-T」任務上的回報,這項任務要求機器人僅透過推動將T形積木滑入目標區域;以及在插針任務上,將針插入4毫米的孔中。將機器人數量從一個擴展到八個,將掌握Push-T所需的時間從大約五小時縮短到兩小時,而插針任務則從超過90分鐘縮短到大約40分鐘。
根據該論文,在測試的四個真實世界任務中,代理人將其策略的成功率提高到了99%。對於插針任務,代理人比類似的人在迴圈方法(仍需要有人每天早上出現的那種)更快地達到了近乎完美的可靠性。
輝達GEAR實驗室的共同負責人兼公司AI研究主管Jim Fan稱該專案是首次在實體世界中實現自動研究的努力。Fan表示,團隊為代理人提供了一支機器人機隊、GPU分配和token預算,然後退後一步,讓機器人接管。
Today, we enable AutoResearch in the physical world for the first time! Introducing ENPIRE: we give 8 Codex agents a fleet of robots, an allocation of GPUs, and generous token budget. We set them free with a simple goal: solve the task as quickly as possible, keep the robots busy… pic.twitter.com/zC0OQNzDBs
— Jim Fan (@DrJimFan) June 16, 2026
模擬與現實之間的差距幾乎立即顯現。所有三個編碼代理人都在模擬器中解決了Push-T任務,但一旦相同的任務轉移到實體機器人上,其中兩個就失敗了,論文指出。
模擬器沒有摩擦問題。而真實的桌面則有。
輝達還在RoboCasa中測試了ENPIRE,這是一個模擬廚房的基準測試,透過成功率來評估機器人執行開櫃門或關閉爐灶等家務的能力,幸運的是沒有任何燒毀現場的風險。在那裡,ENPIRE的表現優於輝達自家的端對端模型GR00T和完全跳過自動研究循環的工具使用代理人CaP-X。
ENPIRE擴展了輝達首次在2023年推出的Eureka系統概念,該系統使用語言模型在模擬器中為機器人編寫獎勵函數,而不是由人類工程師手動操作。ENPIRE將這個自我改進循環從模擬器轉移到真實硬體上,由代理人自行設計測試,而不僅僅是設計獎勵。
本次發布與阿里巴巴推出其具身AI(embodied-AI)計畫Qwen-Robot Suite在同一週,該計畫包含用於機器人導航、操作和物理模擬的三個基礎模型。阿里巴巴正在為非其製造的機器人身體構建軟體大腦;輝達則正在測試代理人是否能在其完全擁有的硬體上運行整個研究循環。兩者都指向同一個趨勢:實體機器人正成為編碼代理人競爭的下一個領域。