تجمیع برچسب اخبار کریپتو و اخبار اختصاصی

nvidia-built-robots-train-themselves-ai-coding-agents

انویدیا ربات‌هایی ساخت که خود را با عوامل کدنویسی هوش مصنوعی آموزش می‌دهند

انویدیا ENPIRE یک ناوگان کامل ربات را در اختیار عوامل کدنویسی مانند کدکس و کلود کد قرار می‌دهد و به آن‌ها اجازه می‌دهد کد آموزشی بنویسند، آن را روی سخت‌افزار واقعی آزمایش کنند و بدون نظارت انسان بهبود یابند.

2026-06-17 منبع:decrypt.co

در یک نگاه

انویدیا، کارنگی ملون و یو‌سی برکلی ENPIRE را منتشر کرده‌اند، چارچوبی که به عامل‌های کدنویسی هوش مصنوعی اجازه می‌دهد تا چرخه کامل آموزش مهارت‌های جدید به ربات‌ها را بدون نظارت انسانی اجرا کنند.
عامل‌هایی که کُدِکس، کلود کُد و کیمی کُد را اجرا می‌کنند، یک ناوگان هشت ربات را به نرخ موفقیت ۹۹ درصدی در وظایفی از جمله قرار دادن پین، قرار دادن GPU و بریدن کابل بند (زیپ تای) رساندند.
افزایش تعداد ربات‌ها از یک به هشت، زمان لازم برای تسلط بر یک وظیفه را بیش از نصف کاهش داد، اگرچه هزینه توکن حتی سریع‌تر از زمان صرفه‌جویی شده افزایش یافت.

یک ناوگان هشت بازوی رباتیک در آزمایشگاه GEAR انویدیا، طی چند هفته گذشته به خودی خود یاد گرفتند که پین‌ها را وارد کرده، کارت‌های گرافیک را جا بیندازند و کابل بندها را ببرند. تنها انسان‌های درگیر، کسانی بودند که مقاله را پس از آن نوشتند.

این مهارت از ENPIRE نشأت می‌گیرد، چارچوبی که در مقاله‌ای که سه‌شنبه توسط محققان انویدیا، دانشگاه کارنگی ملون و یو‌سی برکلی منتشر شد، به تفصیل آمده است. ENPIRE کل وظیفه آموزش یک ربات را به عامل‌های کدنویسی هوش مصنوعی می‌سپارد؛ همان نرم‌افزاری که قبلاً کد خود را می‌نویسد و آزمایش می‌کند، و به آن‌ها اجازه می‌دهد این فرآیند را مستقیماً روی سخت‌افزار فیزیکی اجرا کنند.

عامل‌های کدنویسی مانند کُدِکس OpenAI، کلود کُد Anthropic و کیمی کُد Moonshot، سال گذشته را صرف اجرای آنچه محققان «خودتحقیقی» (autoresearch) می‌نامند، کرده‌اند—نوشتن کد، آزمایش آن و بازنویسی مجدد آن بدون دخالت انسان. این چرخه بیشتر روی صفحه نمایش باقی مانده بود، جایی که بازنشانی یک آزمایش ناموفق هیچ هزینه‌ای ندارد. ENPIRE این فرآیند را به دنیای فیزیکی می‌کشاند، جایی که بازنشانی یک آزمایش به معنای جابجایی یک بازوی رباتیک واقعی است.

ساخت ENPIRE

این سیستم کار را به دو مرحله تقسیم می‌کند. در مرحله اول، یک انسان عامل را در ساخت دو ابزار دائمی راهنمایی می‌کند: یک روال بازنشانی که فضای کاری را به موقعیت شروع تازه بازمی‌گرداند، و یک تابع پاداش که فیلم دوربین را برای امتیازدهی به موفقیت تماشا می‌کند—اساساً یک داور که هرگز چشمک نمی‌زند و هرگز استراحت ناهار نمی‌کند. این تنظیمات یک بار انجام می‌شود و سپس برای هر تلاشی که پس از آن می‌آید، دوباره استفاده می‌شود.

هنگامی که این ابزارها وجود داشته باشند، عامل به طور کامل کنترل را در دست می‌گیرد. این عامل به دنبال ایده‌ها در تحقیقات منتشر شده می‌گردد، بین روش‌های آموزشی مانند یادگیری تقلیدی، یادگیری تقویتی یا قوانین دست‌نویس یکی را انتخاب می‌کند، سپس کد خود را بازنویسی کرده و نتیجه را روی ربات آزمایش می‌کند. هیچ چیز در این چرخه نیازی به نظارت انسان ندارد، که بسته به احساس شما در مورد رباتی که قیچی را بدون نظارت در دست دارد، می‌تواند رهایی‌بخش یا کمی نگران‌کننده باشد.

انویدیا این آزمایش را روی هشت ایستگاه رباتیک دو دستی انجام داد که هر یک دارای سخت‌افزار، رایانه و عامل کدنویسی مخصوص به خود بودند. این ایستگاه‌ها پیشرفت‌ها را از طریق گیت (Git) مبادله می‌کنند، همان ابزاری که کدنویسان برای ادغام کد استفاده می‌کنند، بنابراین یک ایده موفق ظرف چند دقیقه در سراسر ناوگان پخش می‌شود.

محققان بازدهی را روی وظیفه «پوش-تی» (Push-T)، که در آن ربات یک بلوک T شکل را با استفاده از فقط هل دادن به منطقه هدف می‌لغزاند، و همچنین وظیفه قرار دادن پین، که در آن پین‌ها را در سوراخ‌های ۴ میلی‌متری قرار می‌دهد، اندازه‌گیری کردند. افزایش مقیاس از یک ربات به هشت، زمان لازم برای تسلط بر پوش-تی را تقریباً از پنج ساعت به دو ساعت کاهش داد و زمان قرار دادن پین را از بیش از ۹۰ دقیقه به حدود ۴۰ دقیقه رساند.

در میان چهار وظیفه واقعی آزمایش‌شده، عامل‌ها سیاست‌های خود را به نرخ موفقیت ۹۹ درصدی رساندند، طبق مقاله. برای قرار دادن پین، عامل‌ها سریع‌تر از یک روش مشابه با دخالت انسان، که هنوز نیاز دارد کسی هر روز صبح حضور یابد، به قابلیت اطمینان تقریباً کامل دست یافتند.

جیم فن (Jim Fan) از انویدیا، همکار ارشد آزمایشگاه GEAR که تحقیقات هوش مصنوعی این شرکت را هدایت می‌کند، این پروژه را تلاشی برای فعال‌سازی خودتحقیقی (AutoResearch) برای اولین بار در دنیای فیزیکی نامید. فن گفت که تیم یک ناوگان ربات، یک تخصیص GPU و یک بودجه توکن را به عامل‌ها داد و سپس کنار کشید و به ربات‌ها اجازه داد کار را به دست بگیرند.

Today, we enable AutoResearch in the physical world for the first time! Introducing ENPIRE: we give 8 Codex agents a fleet of robots, an allocation of GPUs, and generous token budget. We set them free with a simple goal: solve the task as quickly as possible, keep the robots busy… pic.twitter.com/zC0OQNzDBs

— Jim Fan (@DrJimFan) June 16, 2026

شکاف بین شبیه‌سازی و واقعیت تقریباً بلافاصله آشکار شد. هر سه عامل کدنویسی وظیفه پوش-تی را در داخل یک شبیه‌ساز حل کردند، اما دو مورد از سه عامل پس از انتقال همان وظیفه به یک ربات فیزیکی، شکست خوردند، طبق گزارش مقاله.

شبیه‌سازها مشکلات اصطکاک ندارند. میزهای واقعی دارند.

انویدیا همچنین ENPIRE را در RoboCasa، یک معیار آشپزخانه شبیه‌سازی‌شده که ربات‌ها را بر اساس نرخ موفقیت در کارهایی مانند باز کردن کابینت‌ها یا خاموش کردن اجاق‌ها امتیاز می‌دهد، بدون هیچ خطر آتش‌سوزی در محیط، آزمایش کرد. در آنجا، ENPIRE هم مدل جامع GR00T انویدیا و هم CaP-X، یک عامل استفاده‌کننده از ابزار که به طور کامل از چرخه خودتحقیقی صرف نظر می‌کند، را پشت سر گذاشت.

ENPIRE ایده‌ای را گسترش می‌دهد که انویدیا اولین بار با Eureka مطرح کرد، سیستمی در سال ۲۰۲۳ که از یک مدل زبانی برای نوشتن توابع پاداش برای ربات‌ها در داخل یک شبیه‌ساز استفاده می‌کرد، به جای اینکه مهندسان انسانی این کار را دستی انجام دهند. ENPIRE آن چرخه خودبهبودی را از شبیه‌ساز به سخت‌افزار واقعی منتقل می‌کند، به طوری که عامل آزمایش‌های خود را طراحی می‌کند نه فقط پاداش‌های خود را.

این انتشار همزمان با رونمایی علی‌بابا از حرکت خود در زمینه هوش مصنوعی تجسم‌یافته (embodied-AI)، مجموعه Qwen-Robot، مجموعه‌ای سه گانه از مدل‌های بنیادی برای ناوبری ربات، دستکاری و شبیه‌سازی فیزیک، صورت گرفت. علی‌بابا در حال ساخت مغزهای نرم‌افزاری برای بدنه‌های رباتی است که خودش تولید نمی‌کند؛ انویدیا در حال آزمایش این است که آیا عامل‌ها می‌توانند کل چرخه تحقیق را روی سخت‌افزاری که به طور کامل مالک آن است، اجرا کنند. هر دو به یک روند مشابه اشاره دارند: ربات‌های فیزیکی در حال تبدیل شدن به صحنه بعدی رقابت برای عامل‌های کدنویسی هستند.

مطالب پربازدید

"یکی از ضد رمزارزترین قوانین آمریکا": فرماندار ایلینوی، پریزکر، قانون مالیات ۰.۲ درصدی رمزارز را امضا می‌کند.

10 ساعت قبل

کلشی جدال میلیارد دلاری با صنعت بازی آمریکا را رقم می‌زند

14 ساعت قبل

قاضی فدرال میشیگان حکم می‌دهد که بازارهای پیش‌بینی ورزشی تحت نظارت CFTC نیستند

15 ساعت قبل

سایر مقالات

گروه CME بابت تصویب فیوچرز دائمی از CFTC شکایت می‌کند، مدیرعامل به CNBC گفت

4 ساعت قبل

سهام ممتاز STRC استراتژی با ۱۱ درصد زیر قیمت اسمی در ۸۹ دلار بسته شد

8 ساعت قبل