होमLBank समाचार केंद्र
Google का DiffusionGemma एआई 1,000 टोकन प्रति सेकंड तक पहुँचता है—और यह निःशुल्क है
google-new-open-model-generates-text-diffusiongemma
Google का DiffusionGemma एआई 1,000 टोकन प्रति सेकंड तक पहुँचता है—और यह निःशुल्क है
DiffusionGemma पूरी तरह से शब्द-दर-शब्द जनरेशन को छोड़कर प्रति सेकंड 1,000 टोकन की रफ्तार पकड़ता है। यह अभी तक ज़्यादातर लोगों की मशीनों पर नहीं चलता है।
2026-06-10 स्रोत:decrypt.co

संक्षेप में

  • Google ने DiffusionGemma जारी किया, एक मुफ्त ओपन-वेट मॉडल जो टेक्स्ट डिफ्यूजन के माध्यम से एक साथ पूरे 256-टोकन ब्लॉक उत्पन्न करता है — NVIDIA H100 पर 1,000 टोकन प्रति सेकंड से अधिक की गति प्राप्त करता है, जो मानक ऑटोरेग्रेसिव मॉडल की तुलना में चार गुना तेज़ है।
  • स्थानीय अनुमान के लिए DiffusionGemma को जिस कस्टम ड्राफ्टर मॉड्यूल की आवश्यकता होती है, वह अभी तक किसी भी सार्वजनिक रनटाइम में मौजूद नहीं है — न तो mlx-lm में, न ही LM Studio में — जिससे यह आज अधिकांश उपभोक्ता सेटअपों पर प्रभावी रूप से अयोग्य हो जाता है।
  • NVIDIA NIM पर, मॉडल 8,192 टोकन के संदर्भ में प्री-कॉन्फ़िगर होकर आया — जो Hermes एजेंट जैसे एजेंटिक फ्रेमवर्क के लिए आवश्यक 64,000-टोकन न्यूनतम सीमा से कम है — जिसका अर्थ है कि स्वायत्त वर्कफ़्लो मैन्युअल रीकॉन्फ़िगरेशन के बिना नहीं चलेंगे।

Google ने आज DiffusionGemma जारी किया, एक ओपन मॉडल AI जो टेक्स्ट को उसी तरह उत्पन्न करता है जैसे इमेज जनरेटर चित्र बनाते हैं: शोर से शुरू करें, जब तक यह समझ में न आए तब तक परिष्कृत करें। यह NVIDIA H100 पर 1,000 टोकन प्रति सेकंड की गति प्राप्त करता है। (टोकन एक AI मॉडल द्वारा संभाली जाने वाली जानकारी की मूल इकाई हैं।) इसका मतलब है कि यह नियमित Gemma से चार गुना तेज़ है। यह Hugging Face पर वेट के साथ, Apache 2.0 लाइसेंस के तहत मुफ्त भी है।

हमेशा की तरह, बारीकियां छोटे अक्षरों में हैं। Google की घोषणा के अनुसार, मॉडल "NVIDIA GeForce RTX 5090 पर 700+ टोकन प्रति सेकंड" की गति प्राप्त करता है। यह आउटपुट गुणवत्ता में मानक Gemma 4 से भी पीछे है।

Google खुद ऐसा कहता है। यह एक गति मॉडल है, गुणवत्ता उन्नयन नहीं।

यह वास्तव में क्या करता है

आपके द्वारा उपयोग किया गया प्रत्येक LLM एक टाइपराइटर है। एक समय में एक टोकन, जिसमें प्रत्येक शब्द पिछले शब्द पर निर्भर करता है। ऑटोरेग्रेसिव आर्किटेक्चर इसी तरह काम करते हैं।

DiffusionGemma ऐसा नहीं करता है। टोकन को क्रमिक रूप से उत्पन्न करने के बजाय, यह समानांतर में गड़बड़ टेक्स्ट के परिष्कृत खंडों से शुरू होता है। Google की डेवलपर गाइड के अनुसार, यह "रैंडम प्लेसहोल्डर टोकन के कैनवास से शुरू होता है" और आत्मविश्वास वाले टोकन को बार-बार तब तक लॉक करता है जब तक कि पूरा ब्लॉक फोकस में न आ जाए। प्रति फॉरवर्ड पास दो सौ छप्पन टोकन। GPU व्यस्त रहता है।

इसका दुष्प्रभाव द्विदिश ध्यान है — प्रत्येक टोकन उत्पन्न होते समय हर दूसरे टोकन को देख सकता है, जो ऑटोरेग्रेसिव मॉडल में असंभव है (वे भविष्य को नहीं देख सकते, कि क्या एन्कोड किया जाएगा)। यह उन कार्यों में इसे असाधारण रूप से अच्छा बनाता है जहां उत्तर का अंत शुरुआत को सीमित करता है: कोड इनफिलिंग, संरचित आउटपुट, बाधा-भारी समस्याएं, आदि। Google ने एक डेमो के रूप में सुडोकू को हल करने के लिए एक संस्करण को फाइन-ट्यून किया। बेस मॉडल को लगभग 0% पहेलियाँ सही मिलीं।

फाइन-ट्यून किए गए संस्करण ने 80% सटीकता हासिल की।

टेक्स्ट डिफ्यूजन कई वर्षों से एक शोध परियोजना रही है। MDLM, SEDD, LLaDA, Dream — शैक्षणिक मॉडल जिन्होंने छोटे पैमाने पर दृष्टिकोण के काम करने का प्रमाण दिया और अधिकतर अवधारणाओं के प्रमाण के रूप में ही रहे। Inception Labs ने फरवरी 2026 में Mercury 2 को पहले वाणिज्यिक डिफ्यूजन रीजनिंग मॉडल के रूप में जारी किया, जिसमें गति-अनुकूलित प्रतिस्पर्धियों की तुलना में पांच गुना तेज़ गति का दावा किया गया।

लेकिन उनमें से कोई भी ओपन-वेट नहीं था, और उनमें से कोई भी vLLM, Hugging Face Transformers, और Unsloth में डे-जीरो सपोर्ट के साथ नहीं आया। DiffusionGemma एक टियर-वन लैब से पहली प्रमुख ओपन रिलीज़ है।

एक ऐतिहासिक विडंबना भी ध्यान देने योग्य है। इमेज जनरेटर डिफ्यूजन मॉडल के रूप में शुरू हुए (इसलिए नाम स्टेबल डिफ्यूजन) और अब बेहतर गुणवत्ता के लिए ऑटोरेग्रेसिव आर्किटेक्चर की ओर बढ़ रहे हैं। भाषा मॉडल ऑटोरेग्रेसिव के रूप में शुरू हुए और अब गति के लिए डिफ्यूजन के साथ प्रयोग कर रहे हैं।

इसे चलाना अभी मुश्किल क्यों है…

DiffusionGemma को कुशलतापूर्वक चलाने के लिए एक ड्राफ्टर की आवश्यकता होती है — एक हल्का मॉड्यूल जो समानांतर में टोकन ब्लॉक प्रस्तावित करता है, जिसे मुख्य मॉडल एक फॉरवर्ड पास में सत्यापित करता है। इसे सट्टा डिकोडिंग (speculative decoding) कहा जाता है। DFlash एक फ्रेमवर्क है जिसे 2026 की शुरुआत में प्रकाशित किया गया था जो ड्राफ्टर के रूप में एक छोटे डिफ्यूजन मॉडल का उपयोग करता है, जिससे कुछ कार्यों पर 6 गुना से अधिक की गति मिलती है। यह इस प्रकार के मॉडल को व्यावहारिक बनाने वाला इंजन है।

समस्या: DiffusionGemma को MLX — Apple सिलिकॉन के लिए Apple के मशीन लर्निंग फ्रेमवर्क के माध्यम से स्थानीय रूप से चलाने के लिए एक विशिष्ट ड्राफ्टर की आवश्यकता है। वह मॉड्यूल mlx-lm के किसी भी सार्वजनिक संस्करण में, किसी भी ओपन पुल रिक्वेस्ट में, या LM Studio के बंडल किए गए रनटाइम में मौजूद नहीं है।

हमने NVIDIA NIM के माध्यम से Hermes के साथ DiffusionGemma चलाने की कोशिश की। मॉडल लोड हो गया, लेकिन फिर: "एजेंट इनिट विफल: मॉडल google/diffusiongemma-26b-a4b-it में 8,192 टोकन की संदर्भ विंडो है, जो Hermes एजेंट द्वारा आवश्यक न्यूनतम 64,000 से कम है।"

ठीक कहें तो: DiffusionGemma की वास्तविक संदर्भ विंडो 256K टोकन है। 8,192 का आंकड़ा Nvidia द्वारा डिफ़ॉल्ट रूप से चीजों को गड़बड़ करने के कारण था, न कि मॉडल की वास्तुशिल्प सीमा के कारण।

व्यवहार में, एजेंटिक उपयोग के लिए इसे सही ढंग से कॉन्फ़िगर करने के लिए मैन्युअल काम की आवश्यकता होती है जो अधिकांश रोज़मर्रा के उपयोगकर्ताओं ने अभी तक नहीं समझा है, और Hermes एजेंट इसके बिना बस शुरू नहीं होगा। समानांतर गति का कोई मतलब नहीं है यदि एजेंट बूट नहीं कर सकता।

आशा है कि अगले कुछ दिनों में, समुदाय इन मॉडलों को चलाने के लिए बेहतर संसाधन तैयार करेगा।

यह वास्तव में किसके लिए है

NVIDIA RTX 4090 या 5090 हार्डवेयर वाले डेवलपर्स जो रियल-टाइम टूल बना रहे हैं — इनलाइन एडिटर, ऑटो-कम्प्लीट, कोड इनफिलिंग, संरचित जनरेशन। यही लक्ष्य है। जैसा कि डिक्रिप्ट ने मई में कवर किया था, Google नए हार्डवेयर के बिना स्थानीय अनुमान को तेज़ बनाने के लिए लगातार प्रयास कर रहा है।

शोधकर्ताओं के लिए, द्विदिश जनरेशन उन क्षेत्रों को खोलती है जहां ऑटोरेग्रेसिव मॉडल आसानी से नहीं पहुंच सकते — प्रोटीन सीक्वेंस, गणितीय ग्राफ, कुछ भी जहां स्थिति N, स्थिति N+50 पर निर्भर करती है। यह कोई छोटी बात नहीं है।

Google ने अप्रैल में Apache 2.0 के तहत Gemma 4 लॉन्च किया, और DiffusionGemma उसी रणनीति को जारी रखता है। आज तक एक ड्राफ्ट llama.cpp PR पहले से ही खुला है। जब टूलचेन इसे सपोर्ट करना शुरू कर देगा, तो यह एक बहुत व्यापक दर्शकों तक पहुंचेगा।

सक्षम डिस्क्रीट GPU वाली मशीन पर, 1,000 टोकन प्रति सेकंड वास्तविक है।

अन्य लेख
banner
ज़िम्बाब्वे नए AML नियमों के तहत क्रिप्टो फर्मों को RBZ की निगरानी में लाया
11 घंटे पहले
banner
बिटकॉइन की बिकवाली स्टैंडर्ड चार्टर्ड के $100K के पूर्वानुमान की कसौटी पर: क्या जेफ्री केंड्रिक की भविष्यवाणी पटरी पर है?
12 घंटे पहले
banner
अमेरिकी स्पॉट बिटकॉइन ईटीएफ ने दैनिक प्रवाह में $85.85 मिलियन जोड़े, जबकि शुद्ध संपत्ति $79.65 बिलियन पर पहुंच गई।
12 घंटे पहले
banner
अमेरिकी हस्तक्षेप के बाद एंथ्रोपिक ने फेबल 5 एक्सेस बंद कर दिया
14 घंटे पहले
banner
प्रमुख व्हेल द्वारा 1.7 करोड़ टोकन बेचे जाने के बाद सायरन क्रिप्टो 75% क्रैश हुआ
14 घंटे पहले
banner
CFTC ने खेल सट्टेबाजी बाजारों पर अधिकार जताने के नवीनतम प्रयास में न्यू मैक्सिको पर मुकदमा किया
17 घंटे पहले
लोकप्रिय क्रिप्टो
अभी रजिस्टर करें, कोई भी अपडेट न चूकें!