
Google ने आज DiffusionGemma जारी किया, एक ओपन मॉडल AI जो टेक्स्ट को उसी तरह उत्पन्न करता है जैसे इमेज जनरेटर चित्र बनाते हैं: शोर से शुरू करें, जब तक यह समझ में न आए तब तक परिष्कृत करें। यह NVIDIA H100 पर 1,000 टोकन प्रति सेकंड की गति प्राप्त करता है। (टोकन एक AI मॉडल द्वारा संभाली जाने वाली जानकारी की मूल इकाई हैं।) इसका मतलब है कि यह नियमित Gemma से चार गुना तेज़ है। यह Hugging Face पर वेट के साथ, Apache 2.0 लाइसेंस के तहत मुफ्त भी है।
हमेशा की तरह, बारीकियां छोटे अक्षरों में हैं। Google की घोषणा के अनुसार, मॉडल "NVIDIA GeForce RTX 5090 पर 700+ टोकन प्रति सेकंड" की गति प्राप्त करता है। यह आउटपुट गुणवत्ता में मानक Gemma 4 से भी पीछे है।
Google खुद ऐसा कहता है। यह एक गति मॉडल है, गुणवत्ता उन्नयन नहीं।
आपके द्वारा उपयोग किया गया प्रत्येक LLM एक टाइपराइटर है। एक समय में एक टोकन, जिसमें प्रत्येक शब्द पिछले शब्द पर निर्भर करता है। ऑटोरेग्रेसिव आर्किटेक्चर इसी तरह काम करते हैं।
DiffusionGemma ऐसा नहीं करता है। टोकन को क्रमिक रूप से उत्पन्न करने के बजाय, यह समानांतर में गड़बड़ टेक्स्ट के परिष्कृत खंडों से शुरू होता है। Google की डेवलपर गाइड के अनुसार, यह "रैंडम प्लेसहोल्डर टोकन के कैनवास से शुरू होता है" और आत्मविश्वास वाले टोकन को बार-बार तब तक लॉक करता है जब तक कि पूरा ब्लॉक फोकस में न आ जाए। प्रति फॉरवर्ड पास दो सौ छप्पन टोकन। GPU व्यस्त रहता है।
इसका दुष्प्रभाव द्विदिश ध्यान है — प्रत्येक टोकन उत्पन्न होते समय हर दूसरे टोकन को देख सकता है, जो ऑटोरेग्रेसिव मॉडल में असंभव है (वे भविष्य को नहीं देख सकते, कि क्या एन्कोड किया जाएगा)। यह उन कार्यों में इसे असाधारण रूप से अच्छा बनाता है जहां उत्तर का अंत शुरुआत को सीमित करता है: कोड इनफिलिंग, संरचित आउटपुट, बाधा-भारी समस्याएं, आदि। Google ने एक डेमो के रूप में सुडोकू को हल करने के लिए एक संस्करण को फाइन-ट्यून किया। बेस मॉडल को लगभग 0% पहेलियाँ सही मिलीं।
फाइन-ट्यून किए गए संस्करण ने 80% सटीकता हासिल की।
टेक्स्ट डिफ्यूजन कई वर्षों से एक शोध परियोजना रही है। MDLM, SEDD, LLaDA, Dream — शैक्षणिक मॉडल जिन्होंने छोटे पैमाने पर दृष्टिकोण के काम करने का प्रमाण दिया और अधिकतर अवधारणाओं के प्रमाण के रूप में ही रहे। Inception Labs ने फरवरी 2026 में Mercury 2 को पहले वाणिज्यिक डिफ्यूजन रीजनिंग मॉडल के रूप में जारी किया, जिसमें गति-अनुकूलित प्रतिस्पर्धियों की तुलना में पांच गुना तेज़ गति का दावा किया गया।
लेकिन उनमें से कोई भी ओपन-वेट नहीं था, और उनमें से कोई भी vLLM, Hugging Face Transformers, और Unsloth में डे-जीरो सपोर्ट के साथ नहीं आया। DiffusionGemma एक टियर-वन लैब से पहली प्रमुख ओपन रिलीज़ है।
एक ऐतिहासिक विडंबना भी ध्यान देने योग्य है। इमेज जनरेटर डिफ्यूजन मॉडल के रूप में शुरू हुए (इसलिए नाम स्टेबल डिफ्यूजन) और अब बेहतर गुणवत्ता के लिए ऑटोरेग्रेसिव आर्किटेक्चर की ओर बढ़ रहे हैं। भाषा मॉडल ऑटोरेग्रेसिव के रूप में शुरू हुए और अब गति के लिए डिफ्यूजन के साथ प्रयोग कर रहे हैं।
DiffusionGemma को कुशलतापूर्वक चलाने के लिए एक ड्राफ्टर की आवश्यकता होती है — एक हल्का मॉड्यूल जो समानांतर में टोकन ब्लॉक प्रस्तावित करता है, जिसे मुख्य मॉडल एक फॉरवर्ड पास में सत्यापित करता है। इसे सट्टा डिकोडिंग (speculative decoding) कहा जाता है। DFlash एक फ्रेमवर्क है जिसे 2026 की शुरुआत में प्रकाशित किया गया था जो ड्राफ्टर के रूप में एक छोटे डिफ्यूजन मॉडल का उपयोग करता है, जिससे कुछ कार्यों पर 6 गुना से अधिक की गति मिलती है। यह इस प्रकार के मॉडल को व्यावहारिक बनाने वाला इंजन है।
समस्या: DiffusionGemma को MLX — Apple सिलिकॉन के लिए Apple के मशीन लर्निंग फ्रेमवर्क के माध्यम से स्थानीय रूप से चलाने के लिए एक विशिष्ट ड्राफ्टर की आवश्यकता है। वह मॉड्यूल mlx-lm के किसी भी सार्वजनिक संस्करण में, किसी भी ओपन पुल रिक्वेस्ट में, या LM Studio के बंडल किए गए रनटाइम में मौजूद नहीं है।
हमने NVIDIA NIM के माध्यम से Hermes के साथ DiffusionGemma चलाने की कोशिश की। मॉडल लोड हो गया, लेकिन फिर: "एजेंट इनिट विफल: मॉडल google/diffusiongemma-26b-a4b-it में 8,192 टोकन की संदर्भ विंडो है, जो Hermes एजेंट द्वारा आवश्यक न्यूनतम 64,000 से कम है।"
ठीक कहें तो: DiffusionGemma की वास्तविक संदर्भ विंडो 256K टोकन है। 8,192 का आंकड़ा Nvidia द्वारा डिफ़ॉल्ट रूप से चीजों को गड़बड़ करने के कारण था, न कि मॉडल की वास्तुशिल्प सीमा के कारण।
व्यवहार में, एजेंटिक उपयोग के लिए इसे सही ढंग से कॉन्फ़िगर करने के लिए मैन्युअल काम की आवश्यकता होती है जो अधिकांश रोज़मर्रा के उपयोगकर्ताओं ने अभी तक नहीं समझा है, और Hermes एजेंट इसके बिना बस शुरू नहीं होगा। समानांतर गति का कोई मतलब नहीं है यदि एजेंट बूट नहीं कर सकता।
आशा है कि अगले कुछ दिनों में, समुदाय इन मॉडलों को चलाने के लिए बेहतर संसाधन तैयार करेगा।
NVIDIA RTX 4090 या 5090 हार्डवेयर वाले डेवलपर्स जो रियल-टाइम टूल बना रहे हैं — इनलाइन एडिटर, ऑटो-कम्प्लीट, कोड इनफिलिंग, संरचित जनरेशन। यही लक्ष्य है। जैसा कि डिक्रिप्ट ने मई में कवर किया था, Google नए हार्डवेयर के बिना स्थानीय अनुमान को तेज़ बनाने के लिए लगातार प्रयास कर रहा है।
शोधकर्ताओं के लिए, द्विदिश जनरेशन उन क्षेत्रों को खोलती है जहां ऑटोरेग्रेसिव मॉडल आसानी से नहीं पहुंच सकते — प्रोटीन सीक्वेंस, गणितीय ग्राफ, कुछ भी जहां स्थिति N, स्थिति N+50 पर निर्भर करती है। यह कोई छोटी बात नहीं है।
Google ने अप्रैल में Apache 2.0 के तहत Gemma 4 लॉन्च किया, और DiffusionGemma उसी रणनीति को जारी रखता है। आज तक एक ड्राफ्ट llama.cpp PR पहले से ही खुला है। जब टूलचेन इसे सपोर्ट करना शुरू कर देगा, तो यह एक बहुत व्यापक दर्शकों तक पहुंचेगा।
सक्षम डिस्क्रीट GPU वाली मशीन पर, 1,000 टोकन प्रति सेकंड वास्तविक है।