BerandaPusat Berita LBank
Nvidia Membangun Robot yang Melatih Diri Sendiri dengan Agen Pengodean AI
nvidia-built-robots-train-themselves-ai-coding-agents
Nvidia Membangun Robot yang Melatih Diri Sendiri dengan Agen Pengodean AI
ENPIRE Nvidia menyerahkan seluruh armada robot kepada agen pengodean seperti Codex dan Claude Code, memungkinkan mereka menulis kode pelatihan, mengujinya pada perangkat keras sungguhan, dan meningkatkan diri tanpa pengawasan manusia.
2026-06-17 Sumber:decrypt.co

Singkatnya

  • Nvidia, Carnegie Mellon, dan UC Berkeley telah merilis ENPIRE, sebuah kerangka kerja yang memungkinkan agen pengodean AI menjalankan seluruh siklus pengajaran keterampilan baru kepada robot tanpa pengawasan manusia.
  • Agen yang menjalankan Codex, Claude Code, dan Kimi Code mendorong armada delapan robot mencapai tingkat keberhasilan 99% dalam tugas-tugas termasuk memasang pin, memasang GPU, dan memotong pengikat kabel (zip-tie).
  • Peningkatan dari satu robot menjadi delapan memangkas waktu yang dibutuhkan untuk menguasai suatu tugas lebih dari separuh, meskipun biaya token tumbuh lebih cepat daripada waktu yang dihemat.

Sebuah armada delapan lengan robot di lab GEAR Nvidia menghabiskan beberapa minggu terakhir untuk belajar sendiri cara memasang pin, menempatkan kartu grafis, dan memotong pengikat kabel. Satu-satunya manusia yang terlibat adalah mereka yang menulis makalahnya setelah itu.

Keahlian ini berasal dari ENPIRE, sebuah kerangka kerja yang dijelaskan dalam makalah yang diterbitkan Selasa oleh para peneliti di Nvidia, Carnegie Mellon University, dan UC Berkeley. ENPIRE menyerahkan seluruh pekerjaan pelatihan robot kepada agen pengodean AI, perangkat lunak yang sama yang sudah menulis dan menguji kode-nya sendiri, dan memungkinkan mereka menjalankan proses tersebut secara langsung pada perangkat keras fisik.

Agen pengodean seperti OpenAI Codex, Anthropic Claude Code, dan Moonshot Kimi Code telah menghabiskan setahun terakhir menjalankan apa yang disebut peneliti sebagai autoresearch—menulis kode, mengujinya, dan menulis ulang lagi tanpa campur tangan manusia. Lingkaran tersebut sebagian besar tetap berada di layar, di mana mengatur ulang eksperimen yang gagal tidak membutuhkan biaya. ENPIRE menyeretnya ke dunia fisik, di mana mengatur ulang eksperimen berarti menggerakkan lengan robot yang sebenarnya.

Membangun 'Enpire'

Sistem ini membagi pekerjaan menjadi dua tahap. Pada tahap pertama, manusia memandu agen untuk membangun dua alat permanen: rutinitas reset yang mengembalikan ruang kerja ke posisi awal yang baru, dan fungsi reward yang mengamati rekaman kamera untuk menilai keberhasilan—pada dasarnya seorang wasit yang tidak pernah berkedip dan tidak pernah beristirahat makan siang. Penyiapan itu terjadi sekali, kemudian digunakan kembali untuk setiap percobaan berikutnya.

Setelah alat-alat tersebut ada, agen mengambil alih sepenuhnya. Ia mencari ide-ide dari penelitian yang diterbitkan, memilih antara metode pelatihan seperti pembelajaran imitasi, pembelajaran penguatan, atau aturan yang ditulis tangan, kemudian menulis ulang kodenya sendiri dan menguji hasilnya pada robot. Tidak ada dalam lingkaran tersebut yang membutuhkan seseorang untuk mengawasi, yang bisa jadi membebaskan atau sedikit mengganggu tergantung pada bagaimana perasaan Anda tentang robot yang memegang gunting tanpa pengawasan.

Nvidia menjalankan eksperimen pada delapan stasiun robot bimanual, masing-masing dengan perangkat keras, komputer, dan agen pengodeannya sendiri. Stasiun-stasiun tersebut bertukar kemajuan melalui Git, alat yang sama yang digunakan oleh pemrogram untuk menggabungkan kode, sehingga ide yang berhasil menyebar ke seluruh armada dalam hitungan menit.

Para peneliti mengukur hasilnya pada "Push-T", sebuah tugas di mana robot menggeser balok berbentuk T ke zona target hanya dengan dorongan, dan penyisipan pin, di mana ia memasukkan pin ke dalam lubang 4 milimeter. Peningkatan dari satu robot menjadi delapan memangkas waktu untuk menguasai Push-T dari sekitar lima jam menjadi dua, dan penyisipan pin dari lebih dari 90 menit menjadi sekitar 40 menit.

Di keempat tugas dunia nyata yang diuji, agen-agen tersebut mendorong kebijakan mereka ke tingkat keberhasilan 99%, menurut makalah tersebut. Untuk penyisipan pin, agen-agen tersebut mencapai keandalan yang hampir sempurna lebih cepat daripada metode human-in-the-loop yang sebanding, jenis yang masih membutuhkan seseorang untuk hadir setiap pagi.

Jim Fan dari Nvidia, salah satu pemimpin GEAR Lab yang mengarahkan penelitian AI perusahaan, menyebut proyek ini sebagai upaya untuk memungkinkan AutoResearch di dunia fisik untuk pertama kalinya. Fan mengatakan tim menyerahkan armada robot, alokasi GPU, dan anggaran token kepada agen-agen tersebut, kemudian mundur dan membiarkan robot mengambil alih.

Today, we enable AutoResearch in the physical world for the first time! Introducing ENPIRE: we give 8 Codex agents a fleet of robots, an allocation of GPUs, and generous token budget. We set them free with a simple goal: solve the task as quickly as possible, keep the robots busy… pic.twitter.com/zC0OQNzDBs

— Jim Fan (@DrJimFan) June 16, 2026

Kesenjangan antara simulasi dan realitas segera terlihat. Ketiga agen pengodean berhasil menyelesaikan Push-T di dalam simulator, tetapi dua dari tiga gagal ketika tugas yang sama dipindahkan ke robot fisik, catat makalah tersebut.

Simulator tidak memiliki masalah gesekan. Meja sungguhan memilikinya.

Nvidia juga menguji ENPIRE di dalam RoboCasa, tolok ukur dapur simulasi yang menilai robot dalam tugas-tugas seperti membuka lemari atau mematikan kompor berdasarkan tingkat keberhasilan, untungnya tanpa risiko membakar tempat itu. Di sana, ENPIRE mengungguli model end-to-end Nvidia sendiri GR00T dan CaP-X, agen pengguna alat yang melewati seluruh siklus autoresearch.

ENPIRE memperluas ide yang pertama kali diusung Nvidia dengan Eureka, sebuah sistem tahun 2023 yang menggunakan model bahasa untuk menulis fungsi reward bagi robot di dalam simulator alih-alih meminta insinyur manusia melakukannya secara manual. ENPIRE memindahkan siklus peningkatan diri tersebut dari simulator ke perangkat keras nyata, dengan agen merancang uji coba sendiri daripada hanya reward-nya sendiri.

Rilis ini datang pada minggu yang sama ketika Alibaba meluncurkan dorongan AI terwujudnya sendiri, Qwen-Robot Suite, trio model fondasi untuk navigasi robot, manipulasi, dan simulasi fisika. Alibaba sedang membangun otak perangkat lunak untuk tubuh robot yang tidak diproduksinya; Nvidia sedang menguji apakah agen dapat menjalankan seluruh siklus penelitian pada perangkat keras yang dimilikinya secara end-to-end. Keduanya menunjukkan tren yang sama: robot fisik menjadi arena berikutnya bagi agen pengodean untuk bersaing.