
یک ناوگان هشت بازوی رباتیک در آزمایشگاه GEAR انویدیا، طی چند هفته گذشته به خودی خود یاد گرفتند که پینها را وارد کرده، کارتهای گرافیک را جا بیندازند و کابل بندها را ببرند. تنها انسانهای درگیر، کسانی بودند که مقاله را پس از آن نوشتند.
این مهارت از ENPIRE نشأت میگیرد، چارچوبی که در مقالهای که سهشنبه توسط محققان انویدیا، دانشگاه کارنگی ملون و یوسی برکلی منتشر شد، به تفصیل آمده است. ENPIRE کل وظیفه آموزش یک ربات را به عاملهای کدنویسی هوش مصنوعی میسپارد؛ همان نرمافزاری که قبلاً کد خود را مینویسد و آزمایش میکند، و به آنها اجازه میدهد این فرآیند را مستقیماً روی سختافزار فیزیکی اجرا کنند.
عاملهای کدنویسی مانند کُدِکس OpenAI، کلود کُد Anthropic و کیمی کُد Moonshot، سال گذشته را صرف اجرای آنچه محققان «خودتحقیقی» (autoresearch) مینامند، کردهاند—نوشتن کد، آزمایش آن و بازنویسی مجدد آن بدون دخالت انسان. این چرخه بیشتر روی صفحه نمایش باقی مانده بود، جایی که بازنشانی یک آزمایش ناموفق هیچ هزینهای ندارد. ENPIRE این فرآیند را به دنیای فیزیکی میکشاند، جایی که بازنشانی یک آزمایش به معنای جابجایی یک بازوی رباتیک واقعی است.
این سیستم کار را به دو مرحله تقسیم میکند. در مرحله اول، یک انسان عامل را در ساخت دو ابزار دائمی راهنمایی میکند: یک روال بازنشانی که فضای کاری را به موقعیت شروع تازه بازمیگرداند، و یک تابع پاداش که فیلم دوربین را برای امتیازدهی به موفقیت تماشا میکند—اساساً یک داور که هرگز چشمک نمیزند و هرگز استراحت ناهار نمیکند. این تنظیمات یک بار انجام میشود و سپس برای هر تلاشی که پس از آن میآید، دوباره استفاده میشود.
هنگامی که این ابزارها وجود داشته باشند، عامل به طور کامل کنترل را در دست میگیرد. این عامل به دنبال ایدهها در تحقیقات منتشر شده میگردد، بین روشهای آموزشی مانند یادگیری تقلیدی، یادگیری تقویتی یا قوانین دستنویس یکی را انتخاب میکند، سپس کد خود را بازنویسی کرده و نتیجه را روی ربات آزمایش میکند. هیچ چیز در این چرخه نیازی به نظارت انسان ندارد، که بسته به احساس شما در مورد رباتی که قیچی را بدون نظارت در دست دارد، میتواند رهاییبخش یا کمی نگرانکننده باشد.
انویدیا این آزمایش را روی هشت ایستگاه رباتیک دو دستی انجام داد که هر یک دارای سختافزار، رایانه و عامل کدنویسی مخصوص به خود بودند. این ایستگاهها پیشرفتها را از طریق گیت (Git) مبادله میکنند، همان ابزاری که کدنویسان برای ادغام کد استفاده میکنند، بنابراین یک ایده موفق ظرف چند دقیقه در سراسر ناوگان پخش میشود.
محققان بازدهی را روی وظیفه «پوش-تی» (Push-T)، که در آن ربات یک بلوک T شکل را با استفاده از فقط هل دادن به منطقه هدف میلغزاند، و همچنین وظیفه قرار دادن پین، که در آن پینها را در سوراخهای ۴ میلیمتری قرار میدهد، اندازهگیری کردند. افزایش مقیاس از یک ربات به هشت، زمان لازم برای تسلط بر پوش-تی را تقریباً از پنج ساعت به دو ساعت کاهش داد و زمان قرار دادن پین را از بیش از ۹۰ دقیقه به حدود ۴۰ دقیقه رساند.
در میان چهار وظیفه واقعی آزمایششده، عاملها سیاستهای خود را به نرخ موفقیت ۹۹ درصدی رساندند، طبق مقاله. برای قرار دادن پین، عاملها سریعتر از یک روش مشابه با دخالت انسان، که هنوز نیاز دارد کسی هر روز صبح حضور یابد، به قابلیت اطمینان تقریباً کامل دست یافتند.
جیم فن (Jim Fan) از انویدیا، همکار ارشد آزمایشگاه GEAR که تحقیقات هوش مصنوعی این شرکت را هدایت میکند، این پروژه را تلاشی برای فعالسازی خودتحقیقی (AutoResearch) برای اولین بار در دنیای فیزیکی نامید. فن گفت که تیم یک ناوگان ربات، یک تخصیص GPU و یک بودجه توکن را به عاملها داد و سپس کنار کشید و به رباتها اجازه داد کار را به دست بگیرند.
Today, we enable AutoResearch in the physical world for the first time! Introducing ENPIRE: we give 8 Codex agents a fleet of robots, an allocation of GPUs, and generous token budget. We set them free with a simple goal: solve the task as quickly as possible, keep the robots busy… pic.twitter.com/zC0OQNzDBs
— Jim Fan (@DrJimFan) June 16, 2026
شکاف بین شبیهسازی و واقعیت تقریباً بلافاصله آشکار شد. هر سه عامل کدنویسی وظیفه پوش-تی را در داخل یک شبیهساز حل کردند، اما دو مورد از سه عامل پس از انتقال همان وظیفه به یک ربات فیزیکی، شکست خوردند، طبق گزارش مقاله.
شبیهسازها مشکلات اصطکاک ندارند. میزهای واقعی دارند.
انویدیا همچنین ENPIRE را در RoboCasa، یک معیار آشپزخانه شبیهسازیشده که رباتها را بر اساس نرخ موفقیت در کارهایی مانند باز کردن کابینتها یا خاموش کردن اجاقها امتیاز میدهد، بدون هیچ خطر آتشسوزی در محیط، آزمایش کرد. در آنجا، ENPIRE هم مدل جامع GR00T انویدیا و هم CaP-X، یک عامل استفادهکننده از ابزار که به طور کامل از چرخه خودتحقیقی صرف نظر میکند، را پشت سر گذاشت.
ENPIRE ایدهای را گسترش میدهد که انویدیا اولین بار با Eureka مطرح کرد، سیستمی در سال ۲۰۲۳ که از یک مدل زبانی برای نوشتن توابع پاداش برای رباتها در داخل یک شبیهساز استفاده میکرد، به جای اینکه مهندسان انسانی این کار را دستی انجام دهند. ENPIRE آن چرخه خودبهبودی را از شبیهساز به سختافزار واقعی منتقل میکند، به طوری که عامل آزمایشهای خود را طراحی میکند نه فقط پاداشهای خود را.
این انتشار همزمان با رونمایی علیبابا از حرکت خود در زمینه هوش مصنوعی تجسمیافته (embodied-AI)، مجموعه Qwen-Robot، مجموعهای سه گانه از مدلهای بنیادی برای ناوبری ربات، دستکاری و شبیهسازی فیزیک، صورت گرفت. علیبابا در حال ساخت مغزهای نرمافزاری برای بدنههای رباتی است که خودش تولید نمیکند؛ انویدیا در حال آزمایش این است که آیا عاملها میتوانند کل چرخه تحقیق را روی سختافزاری که به طور کامل مالک آن است، اجرا کنند. هر دو به یک روند مشابه اشاره دارند: رباتهای فیزیکی در حال تبدیل شدن به صحنه بعدی رقابت برای عاملهای کدنویسی هستند.