
Một đội hình tám cánh tay robot tại phòng thí nghiệm GEAR của Nvidia đã dành vài tuần qua để tự học cách lắp chốt, lắp đặt card đồ họa và cắt dây rút. Những con người duy nhất tham gia là những người đã viết bài báo sau đó.
Kỹ năng này đến từ ENPIRE, một khuôn khổ được trình bày chi tiết trong một bài báo công bố vào thứ Ba bởi các nhà nghiên cứu tại Nvidia, Đại học Carnegie Mellon và UC Berkeley. ENPIRE giao toàn bộ công việc huấn luyện robot cho các tác nhân lập trình AI, cùng phần mềm đã tự viết và kiểm thử mã của chính nó, và cho phép chúng chạy quy trình đó trực tiếp trên phần cứng vật lý.
Các tác nhân lập trình như Codex của OpenAI, Claude Code của Anthropic và Kimi Code của Moonshot đã dành năm vừa qua để thực hiện cái mà các nhà nghiên cứu gọi là "tự nghiên cứu" (autoresearch)—tự viết mã, kiểm thử và viết lại mã mà không có sự can thiệp của con người. Vòng lặp đó chủ yếu diễn ra trên màn hình, nơi việc thiết lập lại một thử nghiệm thất bại không tốn kém gì. ENPIRE đưa nó vào thế giới vật lý, nơi việc thiết lập lại một thử nghiệm có nghĩa là di chuyển một cánh tay robot thực tế.
Hệ thống chia công việc thành hai giai đoạn. Trong giai đoạn đầu tiên, một người hướng dẫn tác nhân xây dựng hai công cụ vĩnh viễn: một quy trình đặt lại đưa không gian làm việc về vị trí ban đầu mới, và một hàm phần thưởng quan sát hình ảnh camera để đánh giá thành công—về cơ bản là một trọng tài không bao giờ chớp mắt và không bao giờ nghỉ trưa. Việc thiết lập này chỉ thực hiện một lần, sau đó được tái sử dụng cho mọi lần thử sau đó.
Khi các công cụ đó tồn tại, tác nhân sẽ hoàn toàn nắm quyền kiểm soát. Nó tìm kiếm các nghiên cứu đã công bố để tìm ý tưởng, lựa chọn giữa các phương pháp huấn luyện như học bắt chước, học tăng cường, hoặc các quy tắc được viết bằng tay, sau đó tự viết lại mã của mình và thử nghiệm kết quả trên robot. Không có gì trong vòng lặp đó yêu cầu con người giám sát, điều này có thể mang lại sự giải phóng hoặc hơi đáng lo ngại tùy thuộc vào cảm nhận của bạn về một robot cầm kéo mà không có sự giám sát.
Nvidia đã thực hiện thử nghiệm trên tám trạm robot hai tay, mỗi trạm có phần cứng, máy tính và tác nhân lập trình riêng. Các trạm trao đổi tiến độ thông qua Git, cùng công cụ mà các lập trình viên sử dụng để hợp nhất mã, vì vậy một ý tưởng thành công sẽ lan truyền khắp đội hình trong vòng vài phút.
Các nhà nghiên cứu đã đo lường hiệu quả trên “Push-T,” một tác vụ trong đó robot trượt một khối hình chữ T vào khu vực mục tiêu chỉ bằng cách đẩy, và lắp chốt, nơi nó luồn chốt vào các lỗ 4 milimet. Mở rộng từ một robot lên tám đã giảm thời gian thành thạo Push-T từ khoảng năm giờ xuống còn hai, và lắp chốt từ hơn 90 phút xuống còn khoảng 40.
Theo bài báo, trên bốn tác vụ thực tế đã được thử nghiệm, các tác nhân đã đưa chính sách của chúng đạt tỷ lệ thành công 99%. Đối với tác vụ lắp chốt, các tác nhân đạt được độ tin cậy gần như hoàn hảo nhanh hơn so với phương pháp có sự tham gia của con người tương đương, loại phương pháp vẫn cần ai đó xuất hiện mỗi sáng.
Jim Fan, đồng lãnh đạo GEAR Lab, người điều hành nghiên cứu AI của Nvidia, gọi dự án là một nỗ lực để lần đầu tiên hiện thực hóa Tự Nghiên cứu (AutoResearch) trong thế giới vật lý. Fan cho biết nhóm đã cung cấp cho các tác nhân một đội hình robot, một phân bổ GPU và một ngân sách token, sau đó lùi lại và để robot tiếp quản.
Today, we enable AutoResearch in the physical world for the first time! Introducing ENPIRE: we give 8 Codex agents a fleet of robots, an allocation of GPUs, and generous token budget. We set them free with a simple goal: solve the task as quickly as possible, keep the robots busy… pic.twitter.com/zC0OQNzDBs
— Jim Fan (@DrJimFan) June 16, 2026
Khoảng cách giữa mô phỏng và thực tế gần như xuất hiện ngay lập tức. Cả ba tác nhân lập trình đều giải quyết thành công Push-T trong môi trường mô phỏng, nhưng hai trong số ba tác nhân đã thất bại khi tác vụ tương tự được chuyển sang robot vật lý, bài báo ghi nhận.
Môi trường mô phỏng không có vấn đề về ma sát. Bàn thật thì có.
Nvidia cũng đã thử nghiệm ENPIRE trong RoboCasa, một chuẩn đánh giá nhà bếp mô phỏng, nơi đánh giá robot về các công việc như mở tủ hoặc tắt bếp dựa trên tỷ lệ thành công, may mắn là không có nguy cơ đốt cháy mọi thứ. Tại đó, ENPIRE vượt trội hơn cả mô hình end-to-end GR00T của Nvidia và CaP-X, một tác nhân sử dụng công cụ bỏ qua hoàn toàn vòng lặp tự nghiên cứu.
ENPIRE mở rộng một ý tưởng mà Nvidia lần đầu tiên đề xuất với Eureka, một hệ thống năm 2023 sử dụng mô hình ngôn ngữ để viết các hàm phần thưởng cho robot trong môi trường mô phỏng thay vì kỹ sư con người làm thủ công. ENPIRE chuyển vòng lặp tự cải thiện đó từ môi trường mô phỏng sang phần cứng thực tế, với việc tác nhân tự thiết kế các thử nghiệm của mình thay vì chỉ tự thiết kế phần thưởng.
Bản phát hành này diễn ra cùng tuần Alibaba ra mắt nỗ lực AI hiện thân của riêng mình, Qwen-Robot Suite, một bộ ba mô hình nền tảng cho điều hướng robot, thao tác và mô phỏng vật lý. Alibaba đang xây dựng bộ não phần mềm cho các thân robot mà họ không sản xuất; Nvidia đang thử nghiệm xem các tác nhân có thể chạy toàn bộ vòng lặp nghiên cứu trên phần cứng mà họ sở hữu từ đầu đến cuối hay không. Cả hai đều chỉ ra cùng một xu hướng: robot vật lý đang trở thành đấu trường tiếp theo để các tác nhân lập trình cạnh tranh.