
Flota ośmiu ramion robotycznych w laboratorium GEAR Nvidii spędziła ostatnie tygodnie na samodzielnym uczeniu się wkładania pinów, montowania kart graficznych i przecinania opasek kablowych. Jedynymi zaangażowanymi ludźmi byli ci, którzy później napisali artykuł.
Umiejętność ta pochodzi z ENPIRE, frameworku szczegółowo opisanego w artykule opublikowanym we wtorek przez badaczy z Nvidii, Carnegie Mellon University i UC Berkeley. ENPIRE przekazuje całe zadanie szkolenia robota agentom kodującym AI, czyli temu samemu oprogramowaniu, które już samodzielnie pisze i testuje swój kod, i pozwala im uruchamiać ten proces bezpośrednio na fizycznym sprzęcie.
Agenci kodujący, tacy jak Codex OpenAI, Claude Code Anthropic i Kimi Code Moonshot, spędzili ostatni rok, prowadząc to, co badacze nazywają autoresearch – pisząc kod, testując go i przepisując ponownie bez udziału człowieka. Ta pętla w większości pozostawała na ekranie, gdzie resetowanie nieudanego eksperymentu nic nie kosztuje. ENPIRE przenosi ją do świata fizycznego, gdzie resetowanie eksperymentu oznacza przemieszczanie rzeczywistego ramienia robota.
System dzieli pracę na dwa etapy. W pierwszym, człowiek prowadzi agenta przez budowę dwóch stałych narzędzi: rutyny resetującej, która przywraca środowisko pracy do świeżej pozycji początkowej, oraz funkcji nagrody, która obserwuje nagranie z kamery, aby ocenić sukces – w zasadzie sędzia, który nigdy nie mruga i nigdy nie robi przerwy na lunch. Ta konfiguracja odbywa się raz, a następnie jest ponownie wykorzystywana przy każdej kolejnej próbie.
Gdy te narzędzia istnieją, agent przejmuje całkowitą kontrolę. Przeszukuje opublikowane badania w poszukiwaniu pomysłów, wybiera spośród metod szkoleniowych, takich jak uczenie się przez imitację, uczenie wzmacniające lub ręcznie pisane reguły, a następnie przepisuje własny kod i testuje wynik na robocie. Nic w tej pętli nie wymaga nadzoru człowieka, co jest albo wyzwalające, albo lekko niepokojące, w zależności od tego, jak czujesz się z robotem trzymającym nożyczki bez nadzoru.
Nvidia przeprowadziła eksperyment na ośmiu dwuramiennych stacjach robotycznych, każda z własnym sprzętem, komputerem i agentem kodującym. Stacje wymieniają się postępami za pośrednictwem Git, tego samego narzędzia, którego programiści używają do łączenia kodu, więc zwycięski pomysł rozprzestrzenia się w całej flocie w ciągu kilku minut.
Badacze zmierzyli efekty na „Push-T”, zadaniu, w którym robot przesuwa blok w kształcie litery T do strefy docelowej, używając wyłącznie pchnięć, oraz na wkładaniu pinów, gdzie nawleka piny w 4-milimetrowe otwory. Skalowanie z jednego robota do ośmiu skróciło czas na opanowanie Push-T z około pięciu godzin do dwóch, a wkładanie pinów z ponad 90 minut do około 40.
We wszystkich czterech testowanych zadaniach w świecie rzeczywistym agenci doprowadzili swoje polityki do 99% wskaźnika sukcesu, zgodnie z artykułem. W przypadku wkładania pinów agenci osiągnęli niemal doskonałą niezawodność szybciej niż porównywalna metoda z człowiekiem w pętli, która nadal wymaga czyjejś obecności każdego ranka.
Jim Fan z Nvidii, współkierownik GEAR Lab, który kieruje badaniami firmy w dziedzinie AI, nazwał ten projekt wysiłkiem mającym na celu umożliwienie AutoResearch w świecie fizycznym po raz pierwszy. Fan powiedział, że zespół przekazał agentom flotę robotów, alokację GPU i budżet tokenów, a następnie wycofał się i pozwolił robotom przejąć kontrolę.
Today, we enable AutoResearch in the physical world for the first time! Introducing ENPIRE: we give 8 Codex agents a fleet of robots, an allocation of GPUs, and generous token budget. We set them free with a simple goal: solve the task as quickly as possible, keep the robots busy… pic.twitter.com/zC0OQNzDBs
— Jim Fan (@DrJimFan) June 16, 2026
Różnica między symulacją a rzeczywistością ujawniła się niemal natychmiast. Wszystkie trzy agenty kodujące rozwiązały zadanie Push-T w symulatorze, ale dwa z trzech zawiodły, gdy to samo zadanie przeniesiono na fizycznego robota, jak zauważa artykuł.
Symulatory nie mają problemów z tarciem. Prawdziwe stoły – owszem.
Nvidia przetestowała ENPIRE również w RoboCasa, symulowanym benchmarku kuchennym, który ocenia roboty w zadaniach takich jak otwieranie szafek czy wyłączanie kuchenek na podstawie wskaźnika sukcesu, na szczęście bez ryzyka spalenia miejsca. Tam ENPIRE przewyższył zarówno własny kompleksowy model Nvidii GR00T, jak i CaP-X, agenta używającego narzędzi, który całkowicie pomija pętlę autoresearch.
ENPIRE rozszerza pomysł, który Nvidia po raz pierwszy przedstawiła z Eureka, systemem z 2023 roku, który wykorzystywał model językowy do pisania funkcji nagród dla robotów w symulatorze, zamiast zlecać to inżynierom. ENPIRE przenosi tę pętlę samodoskonalenia z symulatora na rzeczywisty sprzęt, gdzie agent projektuje własne testy, a nie tylko własne nagrody.
Wydanie to zbiega się w czasie z prezentacją przez Alibabę własnego pakietu Qwen-Robot Suite, czyli trzech modeli bazowych dla nawigacji, manipulacji i symulacji fizyki robotów. Alibaba tworzy oprogramowanie (mózgi) dla ciał robotów, których nie produkuje; Nvidia testuje, czy agenci mogą samodzielnie prowadzić całą pętlę badawczą na sprzęcie, który posiada od początku do końca. Oba te kierunki wskazują na ten sam trend: fizyczne roboty stają się kolejną areną do rywalizacji dla agentów kodujących.