تجميع وسم أخبار الكريبتو والمعلومات المتخصصة

google-new-open-model-generates-text-diffusiongemma

ذكاء جوجل الاصطناعي DiffusionGemma يحقق 1000 رمز في الثانية وهو مجاني

تحقق DiffusionGemma سرعة 1000 توكن في الثانية بالتخلي كليًا عن التوليد كلمة بكلمة. لكنها لا تعمل بعد على معظم أجهزة المستخدمين.

2026-06-10 المصدر:decrypt.co

باختصار

أطلقت جوجل نموذج DiffusionGemma، وهو نموذج مجاني ومفتوح الوزن يولد كتلًا كاملة من 256 رمزًا (توكن) في وقت واحد عبر انتشار النص (text diffusion) — محققًا أكثر من 1000 توكن في الثانية على معالج NVIDIA H100، وهو أسرع بأربع مرات من النماذج ذاتية الانحدار (autoregressive) القياسية.
لا تتوفر وحدة المسودة المخصصة (custom drafter module) التي يحتاجها DiffusionGemma للاستدلال المحلي (local inference) في أي بيئة تشغيل عامة بعد — لا في mlx-lm ولا في LM Studio — مما يجعله غير قابل للتشغيل فعليًا على معظم إعدادات المستهلكين اليوم.
على NVIDIA NIM، وصل النموذج مهيئًا مسبقًا بسعة سياق (context) تبلغ 8,192 توكن — وهو أقل من الحد الأدنى البالغ 64,000 توكن الذي تتطلبه الأطر البرمجية العاملة (agentic frameworks) مثل Hermes Agent — مما يعني أن سير العمل المستقل لن يعمل بدون إعادة تهيئة يدوية.

أطلقت جوجل اليوم نموذج DiffusionGemma، وهو نموذج ذكاء اصطناعي مفتوح يولد النصوص بالطريقة التي تنشئ بها مولدات الصور صورًا: تبدأ بالضوضاء، ثم تقوم بالتحسين حتى يصبح المعنى واضحًا. يحقق النموذج 1000 توكن في الثانية على معالج NVIDIA H100. (التوكنات هي الوحدة الأساسية للمعلومات التي يتعامل معها نموذج الذكاء الاصطناعي.) وهذا يعني أنه أسرع بأربع مرات من نموذج Gemma العادي. كما أنه مجاني، ومرخص تحت رخصة Apache 2.0، مع توفر الأوزان على Hugging Face.

المشكلة، كما هو الحال دائمًا، تكمن في التفاصيل الدقيقة. وفقًا لإعلان جوجل، يحقق النموذج "أكثر من 700 توكن في الثانية على NVIDIA GeForce RTX 5090." كما أنه يتخلف عن نموذج Gemma 4 القياسي في جودة المخرجات.

جوجل نفسها تقول ذلك. هذا نموذج للسرعة، وليس ترقية للجودة.

ما يفعله هذا حقًا

كل نموذج لغوي كبير (LLM) استخدمته هو آلة كاتبة. توكن واحد في كل مرة مع كل كلمة تعتمد على سابقتها. هكذا تعمل البنى ذاتية الانحدار (autoregressive architectures).

نموذج DiffusionGemma لا يفعل ذلك. فبدلاً من توليد التوكنات بالتسلسل، يبدأ بكتل نصية مشوشة ومُحسّنة بالتوازي. وفقًا لدليل المطورين من جوجل، فإنه "يبدأ بلوحة من التوكنات العشوائية الحاملة للمكان" ويقوم بتثبيت التوكنات الواثقة بشكل تكراري حتى تتركز الكتلة بأكملها. مائتان وستة وخمسون توكنًا لكل تمريرة أمامية. وحدة معالجة الرسوميات (GPU) تظل مشغولة.

التأثير الجانبي هو الانتباه ثنائي الاتجاه (bidirectional attention) — حيث يمكن لكل توكن رؤية كل توكن آخر أثناء التوليد، وهو أمر مستحيل في النماذج ذاتية الانحدار (حيث لا يمكنها رؤية المستقبل، ما سيتم ترميزه). وهذا يجعله جيدًا بشكل غير عادي في المهام التي تحدد فيها نهاية الإجابة بدايتها: مثل إكمال الكود، الإخراج المنظم، المشاكل ذات القيود الشديدة، وما إلى ذلك. قامت جوجل بضبط إصدار منه لحل ألغاز Sudoku كعرض توضيحي. النموذج الأساسي حقق ما يقرب من 0% من الألغاز بشكل صحيح.

الإصدار المُعدّل حقق 80%.

كان انتشار النص مشروع بحث لسنوات. MDLM، SEDD، LLaDA، Dream — كلها نماذج أكاديمية أثبتت نجاح هذا النهج على نطاقات صغيرة وبقيت في الغالب كإثبات للمفاهيم. قامت Inception Labs بشحن Mercury 2 في فبراير 2026 كأول نموذج تجاري للاستدلال بالانتشار (diffusion reasoning model)، مدعية سرعات أسرع بخمس مرات من المنافسين المحسّنين للسرعة.

لكن لا شيء من ذلك كان مفتوح الوزن، ولم يأتِ أي منها بدعم فوري في vLLM، وHugging Face Transformers، وUnsloth. يُعد DiffusionGemma أول إصدار مفتوح رئيسي من مختبر من الدرجة الأولى.

هناك أيضًا سخرية تاريخية تستحق الذكر. بدأت مولدات الصور كنماذج انتشار (ومن هنا جاء اسم Stable Diffusion) وتتجه الآن نحو البنى ذاتية الانحدار لجودة أفضل. بدأت النماذج اللغوية كنماذج ذاتية الانحدار وتجرب الآن الانتشار من أجل السرعة.

لماذا يصعب تشغيله... في الوقت الحالي

يتطلب تشغيل DiffusionGemma بكفاءة وجود مُسَوِّدة (drafter) — وهي وحدة خفيفة الوزن تقترح كتل التوكنات بالتوازي، ثم يتحقق النموذج الرئيسي منها في تمريرة أمامية واحدة. يُعرف هذا بفك التشفير التخميني (speculative decoding). DFlash هو إطار عمل نُشر في أوائل عام 2026 ويستخدم نموذج انتشار صغيرًا كمسودة، مما يتيح تسريعًا يزيد عن 6 أضعاف في بعض المهام. إنه المحرك الذي يجعل هذه الفئة من النماذج عملية.

المشكلة: يحتاج DiffusionGemma إلى مُسَوِّدة محددة للتشغيل محليًا عبر MLX — إطار عمل التعلم الآلي من Apple لمعالجات Apple Silicon. هذه الوحدة غير موجودة في أي إصدار عام من mlx-lm، ولا في أي طلب سحب (pull request) مفتوح، أو في بيئة تشغيل LM Studio المجمعة.

حاولنا تشغيل DiffusionGemma مع Hermes عبر NVIDIA NIM. تم تحميل النموذج، ولكن بعد ذلك: "فشل تهيئة الوكيل: نموذج google/diffusiongemma-26b-a4b-it لديه نافذة سياق (context window) تبلغ 8,192 توكن، وهو أقل من الحد الأدنى المطلوب 64,000 توكن بواسطة Hermes Agent."

لتوضيح الأمر: نافذة السياق الفعلية لـ DiffusionGemma هي 256 ألف توكن. الرقم 8,192 كان خطأً من NVIDIA بشكل افتراضي، وليس حدًا معماريًا للنموذج.

عمليًا، يتطلب تهيئته بشكل صحيح للاستخدام العاملي (agentic use) عملاً يدويًا لم يكتشفه معظم المستخدمين العاديين بعد، ولن يتم تهيئة Hermes Agent بدونه ببساطة. السرعة المتوازية لا تعني شيئًا إذا لم يتمكن الوكيل من البدء.

نأمل أن ينتج المجتمع في الأيام القليلة المقبلة موارد أفضل لتشغيل هذه النماذج.

لمن هذا في الواقع

المطورون الذين يمتلكون أجهزة NVIDIA RTX 4090 أو 5090 والذين يبنون أدوات في الوقت الفعلي — مثل المحررات المضمنة، والإكمال التلقائي، وملء الكود، والتوليد المنظم. هذا هو الهدف. كما غطت Decrypt في مايو، كانت جوجل تدفع باستمرار لجعل الاستدلال المحلي أسرع دون الحاجة إلى أجهزة جديدة.

بالنسبة للباحثين، يفتح التوليد ثنائي الاتجاه آفاقًا لا تستطيع النماذج ذاتية الانحدار الوصول إليها — تسلسلات البروتين، الرسوم البيانية الرياضية، أي شيء يعتمد فيه الموضع N على الموضع N+50. هذا ليس بالأمر الهين.

أطلقت جوجل Gemma 4 بموجب ترخيص Apache 2.0 في أبريل، ويواصل DiffusionGemma هذه الاستراتيجية. يوجد بالفعل طلب سحب (PR) مسودة لـ llama.cpp مفتوح حتى اليوم. عندما تتطور مجموعة الأدوات، سيصل هذا إلى جمهور أوسع بكثير.

على جهاز مزود بوحدة معالجة رسوميات (GPU) منفصلة قوية، فإن 1000 توكن في الثانية أمر حقيقي.