
گوگل امروز DiffusionGemma را عرضه کرد، یک مدل هوش مصنوعی متنباز که متن را به همان روشی تولید میکند که ژنراتورهای تصویر، عکسها را میسازند: با نویز شروع کنید، سپس آن را پالایش کنید تا معنی پیدا کند. این مدل روی NVIDIA H100 به سرعت ۱۰۰۰ توکن در ثانیه میرسد. (توکنها واحد پایه اطلاعاتی هستند که یک مدل هوش مصنوعی پردازش میکند.) این بدان معناست که چهار برابر سریعتر از Gemma معمولی است. همچنین رایگان، تحت مجوز Apache 2.0، با وزنهای موجود در Hugging Face است.
همانند همیشه، نکته اصلی در جزئیات است. طبق اعلام گوگل، این مدل به سرعت "بیش از ۷۰۰ توکن در ثانیه روی NVIDIA GeForce RTX 5090" میرسد. همچنین از نظر کیفیت خروجی، از Gemma 4 استاندارد عقبتر است.
گوگل خود نیز این را میگوید. این یک مدل سرعتمحور است، نه یک ارتقاء کیفی.
هر مدل زبان بزرگ (LLM) که استفاده کردهاید، مانند یک ماشین تحریر عمل میکند. یک توکن در هر زمان، که هر کلمه به کلمه قبلی وابسته است. این نحوه کار معماریهای خودرگرسیو است.
DiffusionGemma اینگونه عمل نمیکند. به جای تولید توکنها به صورت ترتیبی، با تکههای پالایششدهای از متن درهمبرهم به صورت موازی شروع میکند. طبق راهنمای توسعهدهندگان گوگل، این مدل "با یک بوم از توکنهای نگهدارنده تصادفی شروع میکند" و توکنهای مطمئن را به صورت تکراری تثبیت میکند تا کل بلوک واضح شود. دویست و پنجاه و شش توکن در هر گذر رو به جلو. پردازنده گرافیکی (GPU) مشغول باقی میماند.
اثر جانبی آن، توجه دوطرفه (bidirectional attention) است – هر توکن میتواند در حین تولید، سایر توکنها را ببیند، که در مدلهای خودرگرسیو غیرممکن است (آنها نمیتوانند آینده را ببینند، آنچه قرار است رمزگذاری شود). این ویژگی DiffusionGemma را برای کارهایی که پایان پاسخ، آغاز آن را محدود میکند، به طور فوقالعادهای مناسب میسازد: تکمیل کد، خروجی ساختاریافته، مشکلات دارای محدودیتهای سنگین و غیره. گوگل نسخهای را برای حل سودوکو به عنوان یک دمو تنظیم کرد. مدل پایه تقریباً ۰٪ از پازلها را درست حل کرد.
نسخه تنظیمشده ۸۰٪ موفقیتآمیز بود.
انتشار متن (Text diffusion) سالهاست که یک پروژه تحقیقاتی بوده است. MDLM، SEDD، LLaDA، Dream – مدلهای آکادمیکی که نشان دادند این رویکرد در مقیاسهای کوچک کار میکند و عمدتاً به عنوان اثبات مفهوم باقی ماندند. Inception Labs در فوریه ۲۰۲۶ Mercury 2 را به عنوان اولین مدل استدلال انتشاری تجاری عرضه کرد که ادعای سرعتی پنج برابر بیشتر از رقبای بهینهسازیشده برای سرعت را داشت.
اما هیچیک از آنها متنباز نبودند و هیچیک از آنها از همان ابتدا در vLLM، Hugging Face Transformers و Unsloth پشتیبانی نمیشدند. DiffusionGemma اولین انتشار بزرگ و متنباز از یک آزمایشگاه سطح بالا است.
یک طنز تاریخی نیز وجود دارد که شایان توجه است. ژنراتورهای تصویر با مدلهای انتشار (diffusion models) شروع کردند (از این رو نام Stable Diffusion) و اکنون برای کیفیت بهتر به سمت معماریهای خودرگرسیو حرکت میکنند. مدلهای زبان با خودرگرسیو شروع کردند و اکنون برای سرعت، با انتشار آزمایش میکنند.
اجرای کارآمد DiffusionGemma به یک درفتر (drafter) نیاز دارد – یک ماژول سبک که بلوکهای توکن را به صورت موازی پیشنهاد میدهد، و سپس مدل اصلی آنها را در یک گذر رو به جلو تأیید میکند. این روش "رمزگشایی سفتهبازی (speculative decoding)" نامیده میشود. DFlash چارچوبی است که در اوایل سال ۲۰۲۶ منتشر شد و از یک مدل انتشار کوچک به عنوان درفتر استفاده میکند و باعث افزایش سرعت بیش از ۶ برابری در برخی وظایف میشود. این موتور، این کلاس از مدلها را عملیاتی میکند.
مشکل اینجاست: DiffusionGemma برای اجرای محلی از طریق MLX – چارچوب یادگیری ماشین اپل برای Apple Silicon – به یک درفتر خاص نیاز دارد. این ماژول هنوز در هیچ نسخه عمومی از mlx-lm، در هیچ درخواست pull باز، یا در محیط اجرای bundled LM Studio وجود ندارد.
ما سعی کردیم DiffusionGemma را با Hermes از طریق NVIDIA NIM اجرا کنیم. مدل بارگذاری شد، اما سپس: "agent init failed: Model google/diffusiongemma-26b-a4b-it has a context window of 8,192 tokens, which is below the minimum 64,000 required by Hermes Agent." (خطای آغاز به کار عامل: مدل google/diffusiongemma-26b-a4b-it دارای یک پنجره زمینه ۸۱۹۲ توکنی است که کمتر از حداقل ۶۴۰۰۰ توکن مورد نیاز Hermes Agent است.)
به طور دقیق: پنجره زمینه واقعی DiffusionGemma، ۲۵۶ هزار توکن است. عدد ۸۱۹۲ توکن به دلیل خطای پیشفرض NVIDIA بود، نه محدودیت معماری مدل.
در عمل، پیکربندی صحیح آن برای استفاده عاملمحور (agentic use) نیازمند کار دستی است که اکثر کاربران عادی هنوز آن را انجام ندادهاند، و Hermes Agent بدون آن به سادگی راهاندازی نخواهد شد. سرعت موازی هیچ معنایی ندارد اگر عامل نتواند شروع به کار کند.
امیدواریم در چند روز آینده، جامعه منابع بهتری برای اجرای این مدلها ارائه دهد.
توسعهدهندگان دارای سختافزار NVIDIA RTX 4090 یا 5090 که ابزارهای بیدرنگ (real-time) میسازند – ویرایشگرهای درونخطی، تکمیل خودکار، تکمیل کد، تولید ساختاریافته. این هدف است. همانطور که Decrypt در ماه مه پوشش داد، گوگل به طور مداوم در تلاش بوده تا استنتاج محلی را بدون سختافزار جدید سریعتر کند.
برای محققان، تولید دوطرفه (bidirectional generation) قلمرویی را باز میکند که مدلهای خودرگرسیو به سادگی نمیتوانند به آن دست یابند – توالیهای پروتئینی، نمودارهای ریاضی، هر چیزی که موقعیت N به موقعیت N+50 وابسته است. این چیز کوچکی نیست.
گوگل Gemma 4 را تحت مجوز Apache 2.0 در ماه آوریل راهاندازی کرد، و DiffusionGemma این استراتژی را ادامه میدهد. از امروز، یک PR (درخواست pull) پیشنویس llama.cpp نیز برای آن باز شده است. هنگامی که مجموعه ابزارها (toolchain) خود را با آن تطبیق دهند، این مدل به مخاطبان بسیار گستردهتری میرسد.
روی یک دستگاه با یک پردازنده گرافیکی مجزا و قدرتمند، ۱۰۰۰ توکن در ثانیه واقعی است.