होमLBank समाचार केंद्र
एनवीडिया ने AI कोडिंग एजेंटों का उपयोग करके स्वयं को प्रशिक्षित करने वाले रोबोट विकसित किए
nvidia-built-robots-train-themselves-ai-coding-agents
एनवीडिया ने AI कोडिंग एजेंटों का उपयोग करके स्वयं को प्रशिक्षित करने वाले रोबोट विकसित किए
एनवीडिया का ENPIRE कोडेक्स और क्लाउड कोड जैसे कोडिंग एजेंटों को रोबोटों का एक पूरा बेड़ा सौंपता है, जिससे वे प्रशिक्षण कोड लिख सकते हैं, वास्तविक हार्डवेयर पर उसका परीक्षण कर सकते हैं और बिना किसी इंसान की निगरानी के उसमें सुधार कर सकते हैं।
2026-06-17 स्रोत:decrypt.co

संक्षेप में

  • Nvidia, Carnegie Mellon, और UC Berkeley ने ENPIRE जारी किया है, जो एक ऐसा फ्रेमवर्क है जो AI कोडिंग एजेंटों को बिना किसी मानवीय निगरानी के रोबोटों को नए कौशल सिखाने के पूरे चक्र को चलाने की सुविधा देता है।
  • Codex, Claude Code, और Kimi Code चलाने वाले एजेंटों ने आठ-रोबोट बेड़े को पिन डालने, GPU डालने और जिप-टाई काटने जैसे कार्यों पर 99% सफलता दर तक पहुँचाया।
  • एक रोबोट से आठ तक बढ़ने से किसी कार्य में महारत हासिल करने में लगने वाला समय आधे से भी कम हो गया, हालांकि टोकन का बिल समय की बचत से भी तेज़ी से बढ़ा।

Nvidia की GEAR लैब में आठ रोबोटिक भुजाओं के एक बेड़े ने पिछले कुछ हफ्तों में खुद को पिन डालना, ग्राफिक्स कार्ड लगाना और जिप टाई काटना सिखाया। इसमें शामिल एकमात्र इंसान वे थे जिन्होंने बाद में शोध पत्र लिखा।

यह कौशल ENPIRE से आया है, एक ऐसा फ्रेमवर्क जिसका विवरण Nvidia, Carnegie Mellon University, और UC Berkeley के शोधकर्ताओं द्वारा मंगलवार को प्रकाशित एक पेपर में दिया गया है। ENPIRE एक रोबोट को प्रशिक्षित करने का पूरा काम AI कोडिंग एजेंटों को सौंप देता है, वही सॉफ्टवेयर जो पहले से ही अपना कोड लिखता और परीक्षण करता है, और उन्हें उस प्रक्रिया को सीधे भौतिक हार्डवेयर पर चलाने देता है।

OpenAI के Codex, Anthropic के Claude Code, और Moonshot के Kimi Code जैसे कोडिंग एजेंटों ने पिछले एक साल में वह चलाया है जिसे शोधकर्ता ऑटो रिसर्च कहते हैं—बिना किसी व्यक्ति के हस्तक्षेप के कोड लिखना, उसका परीक्षण करना और उसे फिर से लिखना। यह लूप अधिकतर स्क्रीन पर ही रहा है, जहाँ एक असफल प्रयोग को रीसेट करने में कुछ भी खर्च नहीं होता। ENPIRE इसे भौतिक दुनिया में लाता है, जहाँ एक प्रयोग को रीसेट करने का मतलब एक वास्तविक रोबोटिक भुजा को हिलाना है।

'एम्पायर' का निर्माण

यह सिस्टम काम को दो चरणों में बांटता है। पहले में, एक इंसान एजेंट को दो स्थायी उपकरण बनाने के लिए मार्गदर्शन करता है: एक रीसेट रूटीन जो कार्यक्षेत्र को एक नई शुरुआती स्थिति में लौटाता है, और एक रिवॉर्ड फ़ंक्शन जो सफलता को स्कोर करने के लिए कैमरे के फुटेज को देखता है—मूल रूप से एक रेफरी जो कभी नहीं झपकता और कभी लंच ब्रेक नहीं लेता। यह सेटअप एक बार होता है, फिर हर बाद के प्रयास के लिए इसका पुन: उपयोग किया जाता है।

एक बार जब ये उपकरण बन जाते हैं, तो एजेंट पूरी तरह से कार्यभार संभाल लेता है। यह विचारों के लिए प्रकाशित शोधों को खोजता है, इमिटेशन लर्निंग, रीइन्फोर्समेंट लर्निंग, या हाथ से लिखे नियमों जैसे प्रशिक्षण तरीकों के बीच चयन करता है, फिर अपने स्वयं के कोड को फिर से लिखता है और रोबोट पर परिणाम का परीक्षण करता है। उस लूप में किसी व्यक्ति को देखने की आवश्यकता नहीं होती, जो या तो मुक्तिदायक है या थोड़ा परेशान करने वाला है, यह इस बात पर निर्भर करता है कि आप एक रोबोट को बिना पर्यवेक्षण के कैंची पकड़े हुए कैसा महसूस करते हैं।

Nvidia ने आठ द्विमानव रोबोट स्टेशनों पर प्रयोग किया, प्रत्येक में अपना हार्डवेयर, कंप्यूटर और कोडिंग एजेंट था। स्टेशन Git के माध्यम से प्रगति का आदान-प्रदान करते हैं, वही उपकरण जिसका उपयोग कोडर कोड को मर्ज करने के लिए करते हैं, इसलिए एक सफल विचार मिनटों के भीतर पूरे बेड़े में फैल जाता है।

शोधकर्ताओं ने "Push-T" पर प्रतिफल को मापा, एक ऐसा कार्य जहाँ एक रोबोट केवल धकेलने का उपयोग करके T-आकार के ब्लॉक को एक लक्ष्य क्षेत्र में सरकाता है, और पिन इंसर्शन, जहाँ यह 4-मिलीमीटर के छेदों में पिन पिरोता है। एक रोबोट से आठ तक बढ़ने से Push-T में महारत हासिल करने का समय लगभग पांच घंटे से घटकर दो हो गया, और पिन इंसर्शन 90 मिनट से अधिक से घटकर लगभग 40 मिनट हो गया।

परीक्षण किए गए चार वास्तविक दुनिया के कार्यों में, एजेंटों ने अपनी नीतियों को 99% सफलता दर तक पहुँचाया, जैसा कि पेपर में बताया गया है। पिन इंसर्शन के लिए, एजेंटों ने तुलनीय मानव-इन-द-लूप विधि की तुलना में तेजी से लगभग-पूर्ण विश्वसनीयता हासिल की, जिस प्रकार की विधि को अभी भी हर सुबह किसी को उपस्थित होने की आवश्यकता होती है।

Nvidia के Jim Fan, GEAR लैब के सह-प्रमुख जो कंपनी के AI अनुसंधान का निर्देशन करते हैं, ने इस परियोजना को पहली बार भौतिक दुनिया में ऑटो रिसर्च को सक्षम करने का प्रयास बताया। फैन ने कहा कि टीम ने एजेंटों को रोबोटों का एक बेड़ा, एक GPU आवंटन, और एक टोकन बजट दिया, फिर पीछे हट गए और रोबोटों को काम करने दिया।

Today, we enable AutoResearch in the physical world for the first time! Introducing ENPIRE: we give 8 Codex agents a fleet of robots, an allocation of GPUs, and generous token budget. We set them free with a simple goal: solve the task as quickly as possible, keep the robots busy… pic.twitter.com/zC0OQNzDBs

— Jim Fan (@DrJimFan) June 16, 2026

सिमुलेशन और वास्तविकता के बीच का अंतर लगभग तुरंत दिखाई दिया। तीनों कोडिंग एजेंटों ने एक सिम्युलेटर के अंदर Push-T को हल कर लिया, लेकिन जब वही कार्य एक भौतिक रोबोट पर ले जाया गया तो तीनों में से दो विफल हो गए, पेपर नोट करता है।

सिम्युलेटर में घर्षण की समस्याएँ नहीं होतीं। वास्तविक मेजों पर होती हैं।

Nvidia ने RoboCasa के अंदर ENPIRE का भी परीक्षण किया, एक सिम्युलेटेड किचन बेंचमार्क जो रोबोटों को कैबिनेट खोलने या स्टोव बंद करने जैसे कामों पर सफलता दर के आधार पर स्कोर करता है, सौभाग्य से बिना जगह जलाने के किसी जोखिम के। वहाँ, ENPIRE ने Nvidia के अपने एंड-टू-एंड मॉडल GR00T और CaP-X, एक उपकरण-उपयोगकर्ता एजेंट को पीछे छोड़ दिया जो ऑटो रिसर्च लूप को पूरी तरह से छोड़ देता है।

ENPIRE Nvidia के यूरेका के साथ पहले तैरते हुए एक विचार का विस्तार करता है, एक 2023 प्रणाली जिसने मानव इंजीनियरों द्वारा हाथ से करने के बजाय सिम्युलेटर के अंदर रोबोट के लिए इनाम फ़ंक्शन लिखने के लिए एक भाषा मॉडल का उपयोग किया था। ENPIRE उस स्व-सुधार लूप को सिम्युलेटर से वास्तविक हार्डवेयर पर ले जाता है, जिसमें एजेंट केवल अपने स्वयं के पुरस्कारों के बजाय अपने स्वयं के परीक्षणों को डिज़ाइन करता है।

यह रिलीज़ उसी सप्ताह आई जब अलीबाबा ने अपनी खुद की एम्बोडीड-एआई पहल, Qwen-Robot Suite, रोबोट नेविगेशन, मैनिपुलेशन और भौतिकी सिमुलेशन के लिए तीन फाउंडेशन मॉडल का अनावरण किया। अलीबाबा उन रोबोट निकायों के लिए सॉफ्टवेयर दिमाग बना रहा है जिन्हें वह स्वयं नहीं बनाता है; Nvidia यह परीक्षण कर रहा है कि क्या एजेंट उस हार्डवेयर पर पूरे शोध लूप को चला सकते हैं जिसका स्वामित्व उनके पास एंड-टू-एंड है। दोनों एक ही प्रवृत्ति की ओर इशारा करते हैं: भौतिक रोबोट कोडिंग एजेंटों के लिए अगला प्रतिस्पर्धा क्षेत्र बन रहे हैं।

अन्य लेख
लोकप्रिय क्रिप्टो
अभी रजिस्टर करें, कोई भी अपडेट न चूकें!