
डीप रीइन्फोर्स, एक एआई रिसर्च लैब जो पहले CUDA-L1 और IterX कोड-एजेंट ऑप्टिमाइजेशन लूप के लिए जानी जाती थी, ने पिछले सप्ताह के अंत में Ornith-1.0 जारी किया — यह ओपन-सोर्स कोडिंग मॉडल का एक परिवार है जो Hugging Face पर चार आकारों में उपलब्ध है, जो पैरामीटर की संख्या पर आधारित हैं: 9 बिलियन, 31 बिलियन, 35 बिलियन एक्सपर्ट्स का मिश्रण (mixture of experts), और एक 397 बिलियन एक्सपर्ट्स का मिश्रण फ्लैगशिप, सभी बिना किसी क्षेत्रीय प्रतिबंध के एमआईटी लाइसेंस के तहत उपलब्ध हैं।
पैरामीटर्स मूल रूप से उन डायल और कॉन्फ़िगरेशन की संख्या होती है जिन्हें एक मॉडल अपने प्रशिक्षण पर संभाल सकता है। जितने अधिक पैरामीटर होते हैं, एक मॉडल उतना ही अधिक सक्षम होता है। एक 9-बिलियन-पैरामीटर मॉडल को छोटा माना जाता है, जो एक अच्छे स्मार्टफोन पर चलने के लिए पर्याप्त है, लेकिन किसी भी भारी तर्क कार्य को मज़बूती से करने में सक्षम नहीं है। एक 397 बिलियन मॉडल कहीं अधिक सक्षम है, लेकिन इसके लिए कुछ भारी कंप्यूटिंग की आवश्यकता होती है, जो उपभोक्ता हार्डवेयर पर उपलब्ध नहीं होती है।
लैब इसे "एजेंटिक कोडिंग कार्यों के लिए विशेष रूप से ओपन-सोर्स मॉडल का एक आत्म-सुधार करने वाला परिवार" के रूप में वर्णित करता है। यह शब्द — एजेंटिक — बहुत काम का है।
Aloha! 🌺 मिलिए Ornith-1.0 से, एजेंटिक कोडिंग के लिए विशेष LLM का एक परिवार।
Ornith-1.0 में 9B डेंस, 31B डेंस, 35B MoE, और 397B MoE सहित पूर्ण पैरामीटर आकार शामिल हैं। यह तुलनीय आकार के ओपन-सोर्स मॉडल में अत्याधुनिक प्रदर्शन प्राप्त करता है… pic.twitter.com/7g1rmacLps
— Ornith (@ornith_) जून 25, 2026
अधिकांश एआई जिससे लोग बातचीत करते हैं वह संवादात्मक होता है: आप टाइप करते हैं, वह प्रतिक्रिया देता है, आदान-प्रदान समाप्त हो जाता है। एजेंटिक एआई अलग है — इसे एक कार्य मिलता है और प्रत्येक चरण में मानव मार्गदर्शन के बिना उसे पूरा करने के लिए कार्य करता है। कोडिंग संदर्भ में, इसका मतलब है एक एआई जो फ़ाइलों को पढ़ता है, परीक्षण चलाता है, पहचानता है कि क्या विफल रहा, कोड को ठीक करता है, और जब तक यह पूरा नहीं हो जाता तब तक फिर से लूप करता है।
तो एजेंटिक एआई का मतलब है कि अधिकांश समय किसी को कीबोर्ड पर होने की आवश्यकता नहीं है। यही पूरा मुद्दा है। यह वह दिशा भी है जहाँ 2026 में सबसे अधिक व्यावसायिक रूप से प्रासंगिक प्रगति हो रही है — जो मॉडल 20-चरणों के देव वर्कफ़्लो के माध्यम से पर्यवेक्षण रहित चल सकते हैं, वे उन मॉडलों की तुलना में अधिक मूल्यवान हैं जो अनुरोध पर एक स्वच्छ फ़ंक्शन लिखते हैं।
हालांकि, अधिकांश बड़े भाषा मॉडल अभी भी मानव प्रतिक्रिया को ध्यान में रखकर डिज़ाइन किए गए हैं।
अधिकांश एआई कोडिंग एजेंटों को मानव-डिज़ाइन किए गए हार्नेस के साथ जोड़ा जाता है — यह एजेंट के काम को संरचित करने के लिए नियमों का एक निश्चित सेट है: कब एक टूल को कॉल करना है, एक त्रुटि को कैसे संभालना है, एक बहु-चरणीय समस्या को कैसे विघटित करना है। इसके बजाय Ornith "स्कैफोल्ड को एक सीखने योग्य वस्तु के रूप में मानता है जो पॉलिसी के साथ सह-विकसित होती है।"
अनुवाद: किसी और की कार्यप्रणाली विरासत में लेने के बजाय, यह अपनी खुद की विकसित करता है।
रीइन्फोर्समेंट लर्निंग के दौरान, प्रत्येक प्रशिक्षण चरण दो चरणों में होता है। मॉडल पहले कार्य को पढ़ता है और उसे हल करने के लिए एक परिष्कृत रणनीति प्रस्तावित करता है। फिर वह उस रणनीति का उपयोग करके एक समाधान तैयार करता है।
परिणाम से मिलने वाला रिवॉर्ड दोनों चरणों में वापस प्रवाहित होता है — इसलिए मॉडल को केवल बेहतर कोड लिखने के लिए ही नहीं, बल्कि बेहतर रणनीतियाँ लिखने के लिए भी अनुकूलित किया जाता है। ऐसा हजारों और लाखों बार करने से, विशिष्ट कार्य-दृष्टिकोण बिना मानव इंजीनियरिंग के उभरते हैं।
डीप रीइन्फोर्स रिवॉर्ड हैकिंग को भी गंभीरता से लेता है। यदि मॉडल अपना स्वयं का प्रशिक्षण स्कैफोल्ड लिख सकता है, तो वह सैद्धांतिक रूप से एक ऐसा स्कैफोल्ड लिख सकता है जो वेरीफायर को धोखा दे सकता है — किसी फाइल को छूकर यह दिखा सकता है कि उसने काम पूरा कर लिया है, जबकि वास्तव में काम नहीं किया है। तीन स्तर की सुरक्षा इसे रोकती है: पर्यावरण और टेस्ट सूट अपरिवर्तनीय हैं और मॉडल की पहुंच से बाहर हैं, एक नियतात्मक मॉनिटर प्रतिबंधित रास्तों तक पहुंचने या सत्यापन स्क्रिप्ट को बदलने के किसी भी प्रयास को ध्वजांकित करता है, और एक फ्रीज्ड जज मॉडल स्वचालित वेरीफायर के ऊपर एक वीटो के रूप में बैठता है।
फ्लैगशिप 397 बिलियन पैरामीटर मॉडल SWE-बेंच वेरिफाइड पर 82.4 अंक प्राप्त करता है — यह एक ऐसा परीक्षण है जहाँ एक एआई को एक ओपन-सोर्स गिटहब रिपॉजिटरी से एक वास्तविक बग दिया जाता है और उसे टेस्ट सूट देखे बिना उसे ठीक करना होता है, जिसका मूल्यांकन सफलतापूर्वक हल किए गए मुद्दों के प्रतिशत के रूप में किया जाता है।
यह इसी परीक्षण पर Claude Opus 4.7 के 80.8 और DeepSeek-V4-Pro के 80.6 को मात देता है। टर्मिनल बेंच 2.1 पर — कंटेनराइज़्ड टर्मिनल वातावरण के अंदर चलाए गए 89 कार्य, एसिंक कोड को डीबग करने से लेकर सुरक्षा कमजोरियों को हल करने तक, जिन्हें पूर्णता दर से मापा जाता है — इसने Claude Opus 4.7 के 70.3 के मुकाबले 77.5 का स्कोर किया।
यह देखते हुए कि SWE-बेंच संदूषण की चिंताएँ सार्वजनिक रूप से उठाई गई हैं — OpenAI ने इस साल की शुरुआत में तर्क दिया था कि मॉडल प्रशिक्षण के दौरान देखे गए बेंचमार्क समाधानों को याद करके स्कोर बढ़ा रहे थे — Ornith SWE-बेंच प्रो पर भी संख्याएँ रिपोर्ट करता है, जो अधिक विविध, कम लीक हुए कोडबेस का उपयोग करके एक कठिन संस्करण है, जिसका मूल्यांकन उसी तरह किया जाता है। 397 बिलियन मॉडल वहाँ 62.2 पर आता है। यह काफी कम है, लेकिन फिर भी इस क्षेत्र में प्रतिस्पर्धी है, और Deepseek V4 Pro से बेहतर है।
9 बिलियन पैरामीटर मॉडल अधिक दिलचस्प डेटा बिंदु हो सकता है। यह SWE-बेंच वेरिफाइड पर 69.4 अंक प्राप्त करता है — जो Gemma 4-31B के 52 से अधिक है और Qwen 3.5-35B के 70 के प्रतिस्पर्धी है, जबकि यह 3-4 गुना छोटा है।
Ornith-1.0 स्पष्ट रूप से एक सामान्य-उद्देश्यीय एआई नहीं है। मॉडल के अपने दस्तावेज़ में कहा गया है कि यह एजेंटिक कोडिंग के बाहर के कार्यों पर कम प्रदर्शन कर सकता है। यदि आप एआई को किसी दस्तावेज़ का सारांश बताने, अपनी डॉक्टरेट थीसिस लिखने में मदद करने, या एक ईमेल का मसौदा तैयार करने के लिए चाहते हैं, तो Ornith-1.0 गलत विकल्प है।
यह एक संकीर्ण समस्या सेट के लिए अनुकूलित है: डेवलपर पाइपलाइन जहाँ एक एआई एजेंट एक कार्य विवरण लेता है, एक कोड रिपॉजिटरी या टर्मिनल सत्र के अंदर संचालित होता है, और बिना किसी हस्तक्षेप के बहु-चरणीय कार्य पूरा करता है। यह एक ऐसा टूल है जिसे उन लोगों के लिए बनाया गया था जो पहले से ही एजेंट इन्फ्रास्ट्रक्चर चला रहे हैं — न कि उन लोगों के लिए जो यह तय करने की कोशिश कर रहे हैं कि एआई का उपयोग करना उचित है या नहीं।
"बीट्स क्लॉड" शीर्षक वास्तविक है लेकिन इसके लिए संदर्भ की आवश्यकता है। जैसा कि डिक्रिप्ट ने रिपोर्ट किया, हर लैब अब एजेंटिक कोडिंग मूल्यांकन पर प्रदर्शन का पीछा कर रही है, क्योंकि यहीं पर उपयोगी प्रदर्शन अंतर मौजूद हैं।
Ornith-1.0-397B वास्तव में Claude Opus 4.7 को दोनों अलग-अलग कोडिंग बेंचमार्क पर पीछे छोड़ देता है, लेकिन एंथ्रोपिक का वर्तमान फ्लैगशिप, Claude Opus 4.8, उच्च स्कोर करता है। जो तुलना कायम है वह ओपन-सोर्स श्रेणी के भीतर, तुलनीय पैरामीटर गणना पर, कोडिंग-विशिष्ट एजेंट कार्यों पर है।
स्व-होस्टेड कोडिंग पाइपलाइन, एजेंटिक इन्फ्रास्ट्रक्चर, या इसी तरह के कोडिंग-केंद्रित काम का निर्माण करने वाले डेवलपर्स के लिए, एज हार्डवेयर पर चलने वाले छोटे और मध्यम मॉडल वास्तव में उपयोगी हो सकते हैं, लेकिन औसत व्यक्ति को कहीं और देखना बेहतर हो सकता है।