تجميع وسم أخبار الكريبتو والمعلومات المتخصصة

nvidia-built-robots-train-themselves-ai-coding-agents

إنفيديا بنت روبوتات تتدرب ذاتيًا باستخدام وكلاء برمجة الذكاء الاصطناعي

تُسلم منصة ENPIRE من Nvidia أسطولًا كاملاً من الروبوتات لوكلاء البرمجة مثل Codex و Claude Code، مما يتيح لهم كتابة كود التدريب واختباره على أجهزة حقيقية، وتحسينه دون إشراف بشري.

2026-06-17 المصدر:decrypt.co

باختصار

أصدرت Nvidia وجامعة كارنيجي ميلون وجامعة كاليفورنيا في بيركلي إطار عمل ENPIRE، الذي يسمح لوكلاء الترميز بالذكاء الاصطناعي بتشغيل الحلقة الكاملة لتعليم الروبوتات مهارات جديدة دون إشراف بشري.
وكلاء الترميز الذين يشغلون Codex و Claude Code و Kimi Code دفعوا أسطولاً من ثمانية روبوتات إلى معدل نجاح 99% في مهام تشمل إدخال المسامير، وتركيب وحدات معالجة الرسوميات (GPU)، وقطع الروابط البلاستيكية.
أدى التوسع من روبوت واحد إلى ثمانية إلى تقليل الوقت اللازم لإتقان مهمة بأكثر من النصف، على الرغم من أن تكلفة الرموز نمت بوتيرة أسرع من الوقت الذي تم توفيره.

أمضى أسطول من ثمانية أذرع روبوتية في مختبر GEAR التابع لشركة Nvidia الأسابيع القليلة الماضية في تعليم أنفسهم إدخال المسامير، وتثبيت بطاقات الرسوميات، وقطع الروابط البلاستيكية. البشر الوحيدون المشاركون كانوا أولئك الذين كتبوا الورقة البحثية بعد ذلك.

جاءت هذه المهارة من ENPIRE، وهو إطار عمل تم تفصيله في ورقة بحثية نُشرت يوم الثلاثاء من قبل باحثين في Nvidia وجامعة كارنيجي ميلون وجامعة كاليفورنيا في بيركلي. يسلم ENPIRE مهمة تدريب الروبوت بالكامل لوكلاء الترميز بالذكاء الاصطناعي، وهو نفس البرنامج الذي يكتب ويختبر رمزه الخاص بالفعل، ويسمح لهم بتشغيل هذه العملية مباشرة على الأجهزة المادية.

أمضى وكلاء الترميز مثل Codex من OpenAI و Claude Code من Anthropic و Kimi Code من Moonshot العام الماضي في تشغيل ما يسميه الباحثون "البحث التلقائي" (autoresearch) — أي كتابة الرمز واختباره وإعادة كتابته مرة أخرى دون تدخل بشري. بقيت هذه الحلقة في الغالب على الشاشة، حيث لا يكلف إعادة ضبط تجربة فاشلة شيئًا. يقوم ENPIRE بسحبها إلى العالم المادي، حيث تعني إعادة ضبط التجربة تحريك ذراع روبوتية فعلية.

بناء 'ENPIRE'

يقسم النظام العمل إلى مرحلتين. في الأولى، يرشد الإنسان الوكيل لبناء أداتين دائمتين: روتين إعادة تعيين يعيد مساحة العمل إلى وضع بداية جديد، ووظيفة مكافأة تراقب لقطات الكاميرا لتقييم النجاح—بشكل أساسي حكم لا يرمش أبدًا ولا يأخذ استراحة غداء. يحدث هذا الإعداد مرة واحدة، ثم يُعاد استخدامه لكل محاولة تتبع.

بمجرد وجود هذه الأدوات، يتولى الوكيل المسؤولية بالكامل. يبحث في الأبحاث المنشورة عن الأفكار، ويختار بين طرق التدريب مثل التعلم بالمحاكاة، أو التعلم المعزز، أو القواعد المكتوبة يدويًا، ثم يعيد كتابة رمزه الخاص ويختبر النتيجة على الروبوت. لا يتطلب أي شيء في هذه الحلقة مراقبة شخص، وهو ما يعتبر إما محررًا أو مقلقًا بعض الشيء اعتمادًا على شعورك حيال روبوت يحمل مقصًا دون إشراف.

أجرت Nvidia التجربة على ثماني محطات روبوتية ثنائية الأذرع، كل منها مزود بأجهزته الخاصة، وجهازه الحاسوبي، ووكيل الترميز الخاص به. تتبادل المحطات التقدم عبر Git، وهي نفس الأداة التي يستخدمها المبرمجون لدمج الرموز، لذا تنتشر الفكرة الفائزة عبر الأسطول بأكمله في غضون دقائق.

قاس الباحثون النتائج على مهمة “Push-T”، وهي مهمة يقوم فيها الروبوت بتحريك قالب على شكل حرف T إلى منطقة مستهدفة باستخدام الدفع فقط، ومهمة إدخال المسامير، حيث يقوم بإدخال المسامير في ثقوب بحجم 4 مليمترات. أدى التوسع من روبوت واحد إلى ثمانية إلى تقليل الوقت اللازم لإتقان Push-T من حوالي خمس ساعات إلى ساعتين، وإدخال المسامير من أكثر من 90 دقيقة إلى حوالي 40 دقيقة.

عبر المهام الأربع التي تم اختبارها في العالم الحقيقي، قادت الوكلاء سياساتهم إلى معدل نجاح 99%، وفقًا للورقة البحثية. بالنسبة لإدخال المسامير، حققت الوكلاء موثوقية شبه مثالية أسرع من طريقة المقارنة التي تعتمد على تدخل بشري، وهي النوع الذي لا يزال يتطلب حضور شخص كل صباح.

وصف جيم فان من Nvidia، الرئيس المشارك لمختبر GEAR الذي يدير أبحاث الذكاء الاصطناعي في الشركة، المشروع بأنه محاولة لتمكين البحث التلقائي (AutoResearch) في العالم المادي للمرة الأولى. قال فان إن الفريق سلم الوكلاء أسطولًا من الروبوتات، وتخصيصًا لوحدات معالجة الرسوميات (GPU)، وميزانية للرموز، ثم تراجع وترك الروبوتات تتولى الأمر.

Today, we enable AutoResearch in the physical world for the first time! Introducing ENPIRE: we give 8 Codex agents a fleet of robots, an allocation of GPUs, and generous token budget. We set them free with a simple goal: solve the task as quickly as possible, keep the robots busy… pic.twitter.com/zC0OQNzDBs

— Jim Fan (@DrJimFan) June 16, 2026

ظهرت الفجوة بين المحاكاة والواقع على الفور تقريبًا. حل جميع وكلاء الترميز الثلاثة مهمة Push-T داخل المحاكي، لكن اثنين من الثلاثة فشلوا بمجرد انتقال نفس المهمة إلى روبوت مادي، حسبما تشير الورقة البحثية.

المحاكيات لا تعاني من مشاكل الاحتكاك. الطاولات الحقيقية تفعل ذلك.

اختبرت Nvidia أيضًا ENPIRE داخل RoboCasa، وهو معيار مطبخ محاكى يقيم الروبوتات في مهام مثل فتح الخزانات أو إطفاء المواقد بناءً على معدل النجاح، ولحسن الحظ دون أي خطر من إحراق المكان. هناك، تفوق ENPIRE على نموذج Nvidia الشامل GR00T و CaP-X، وهو وكيل يستخدم الأدوات ويتخطى حلقة البحث التلقائي بالكامل.

يوسع ENPIRE فكرة طرحتها Nvidia لأول مرة مع Eureka، وهو نظام عام 2023 استخدم نموذجًا لغويًا لكتابة وظائف المكافأة للروبوتات داخل محاكي بدلاً من قيام المهندسين البشريين بذلك يدويًا. ينقل ENPIRE حلقة التحسين الذاتي هذه من المحاكي إلى الأجهزة الحقيقية، حيث يقوم الوكيل بتصميم اختباراته الخاصة بدلاً من مجرد مكافآته.

يأتي هذا الإطلاق في نفس الأسبوع الذي كشفت فيه Alibaba عن دفعتها الخاصة في الذكاء الاصطناعي المدمج، وهي مجموعة Qwen-Robot Suite، وهي ثلاثية من النماذج الأساسية لملاحة الروبوتات والتلاعب بها ومحاكاة الفيزياء. تقوم Alibaba ببناء عقول برمجية لأجسام الروبوتات التي لا تصنعها؛ بينما تختبر Nvidia ما إذا كان الوكلاء يمكنهم تشغيل حلقة البحث بأكملها على الأجهزة التي تملكها بالكامل. يشير كلاهما إلى نفس الاتجاه: الروبوتات المادية أصبحت الساحة التالية لوكلاء الترميز للتنافس فيها.