صفحه اصلیمرکز اخبار LBank
ای‌آی DiffusionGemma گوگل به ۱۰۰۰ توکن در ثانیه می‌رسد — و رایگان است
google-new-open-model-generates-text-diffusiongemma
ای‌آی DiffusionGemma گوگل به ۱۰۰۰ توکن در ثانیه می‌رسد — و رایگان است
دیفیوژن‌جما با حذف کامل روش تولید کلمه به کلمه، به سرعت ۱۰۰۰ توکن بر ثانیه دست می‌یابد. اما هنوز روی دستگاه‌های اکثر کاربران قابل اجرا نیست.
2026-06-10 منبع:decrypt.co

به طور خلاصه

  • گوگل مدل متن‌باز و رایگان DiffusionGemma را منتشر کرد که بلوک‌های کامل ۲۵۶ توکنی را به طور همزمان از طریق انتشار متن تولید می‌کند – با سرعتی بیش از ۱۰۰۰ توکن در ثانیه روی NVIDIA H100، که چهار برابر سریع‌تر از مدل‌های خودرگرسیو استاندارد است.
  • ماژول درفتر سفارشی که DiffusionGemma برای استنتاج محلی نیاز دارد، هنوز در هیچ محیط اجرای عمومی وجود ندارد – نه در mlx-lm و نه در LM Studio – که عملاً اجرای آن را در اکثر تنظیمات کاربران عادی غیرممکن می‌سازد.
  • در NVIDIA NIM، این مدل با ۸۱۹۲ توکن زمینه پیش‌فرض پیکربندی شده بود – که کمتر از حداقل ۶۴۰۰۰ توکن مورد نیاز فریم‌ورک‌های عامل‌محور (agentic frameworks) مانند Hermes Agent است – به این معنی که گردش‌های کاری مستقل بدون پیکربندی مجدد دستی کار نخواهند کرد.

گوگل امروز DiffusionGemma را عرضه کرد، یک مدل هوش مصنوعی متن‌باز که متن را به همان روشی تولید می‌کند که ژنراتورهای تصویر، عکس‌ها را می‌سازند: با نویز شروع کنید، سپس آن را پالایش کنید تا معنی پیدا کند. این مدل روی NVIDIA H100 به سرعت ۱۰۰۰ توکن در ثانیه می‌رسد. (توکن‌ها واحد پایه اطلاعاتی هستند که یک مدل هوش مصنوعی پردازش می‌کند.) این بدان معناست که چهار برابر سریع‌تر از Gemma معمولی است. همچنین رایگان، تحت مجوز Apache 2.0، با وزن‌های موجود در Hugging Face است.

همانند همیشه، نکته اصلی در جزئیات است. طبق اعلام گوگل، این مدل به سرعت "بیش از ۷۰۰ توکن در ثانیه روی NVIDIA GeForce RTX 5090" می‌رسد. همچنین از نظر کیفیت خروجی، از Gemma 4 استاندارد عقب‌تر است.

گوگل خود نیز این را می‌گوید. این یک مدل سرعت‌محور است، نه یک ارتقاء کیفی.

این در واقع چه کاری انجام می‌دهد

هر مدل زبان بزرگ (LLM) که استفاده کرده‌اید، مانند یک ماشین تحریر عمل می‌کند. یک توکن در هر زمان، که هر کلمه به کلمه قبلی وابسته است. این نحوه کار معماری‌های خودرگرسیو است.

DiffusionGemma اینگونه عمل نمی‌کند. به جای تولید توکن‌ها به صورت ترتیبی، با تکه‌های پالایش‌شده‌ای از متن درهم‌برهم به صورت موازی شروع می‌کند. طبق راهنمای توسعه‌دهندگان گوگل، این مدل "با یک بوم از توکن‌های نگهدارنده تصادفی شروع می‌کند" و توکن‌های مطمئن را به صورت تکراری تثبیت می‌کند تا کل بلوک واضح شود. دویست و پنجاه و شش توکن در هر گذر رو به جلو. پردازنده گرافیکی (GPU) مشغول باقی می‌ماند.

اثر جانبی آن، توجه دوطرفه (bidirectional attention) است – هر توکن می‌تواند در حین تولید، سایر توکن‌ها را ببیند، که در مدل‌های خودرگرسیو غیرممکن است (آنها نمی‌توانند آینده را ببینند، آنچه قرار است رمزگذاری شود). این ویژگی DiffusionGemma را برای کارهایی که پایان پاسخ، آغاز آن را محدود می‌کند، به طور فوق‌العاده‌ای مناسب می‌سازد: تکمیل کد، خروجی ساختاریافته، مشکلات دارای محدودیت‌های سنگین و غیره. گوگل نسخه‌ای را برای حل سودوکو به عنوان یک دمو تنظیم کرد. مدل پایه تقریباً ۰٪ از پازل‌ها را درست حل کرد.

نسخه تنظیم‌شده ۸۰٪ موفقیت‌آمیز بود.

انتشار متن (Text diffusion) سال‌هاست که یک پروژه تحقیقاتی بوده است. MDLM، SEDD، LLaDA، Dream – مدل‌های آکادمیکی که نشان دادند این رویکرد در مقیاس‌های کوچک کار می‌کند و عمدتاً به عنوان اثبات مفهوم باقی ماندند. Inception Labs در فوریه ۲۰۲۶ Mercury 2 را به عنوان اولین مدل استدلال انتشاری تجاری عرضه کرد که ادعای سرعتی پنج برابر بیشتر از رقبای بهینه‌سازی‌شده برای سرعت را داشت.

اما هیچ‌یک از آن‌ها متن‌باز نبودند و هیچ‌یک از آن‌ها از همان ابتدا در vLLM، Hugging Face Transformers و Unsloth پشتیبانی نمی‌شدند. DiffusionGemma اولین انتشار بزرگ و متن‌باز از یک آزمایشگاه سطح بالا است.

یک طنز تاریخی نیز وجود دارد که شایان توجه است. ژنراتورهای تصویر با مدل‌های انتشار (diffusion models) شروع کردند (از این رو نام Stable Diffusion) و اکنون برای کیفیت بهتر به سمت معماری‌های خودرگرسیو حرکت می‌کنند. مدل‌های زبان با خودرگرسیو شروع کردند و اکنون برای سرعت، با انتشار آزمایش می‌کنند.

چرا اجرای آن سخت است... فعلاً

اجرای کارآمد DiffusionGemma به یک درفتر (drafter) نیاز دارد – یک ماژول سبک که بلوک‌های توکن را به صورت موازی پیشنهاد می‌دهد، و سپس مدل اصلی آن‌ها را در یک گذر رو به جلو تأیید می‌کند. این روش "رمزگشایی سفته‌بازی (speculative decoding)" نامیده می‌شود. DFlash چارچوبی است که در اوایل سال ۲۰۲۶ منتشر شد و از یک مدل انتشار کوچک به عنوان درفتر استفاده می‌کند و باعث افزایش سرعت بیش از ۶ برابری در برخی وظایف می‌شود. این موتور، این کلاس از مدل‌ها را عملیاتی می‌کند.

مشکل اینجاست: DiffusionGemma برای اجرای محلی از طریق MLX – چارچوب یادگیری ماشین اپل برای Apple Silicon – به یک درفتر خاص نیاز دارد. این ماژول هنوز در هیچ نسخه عمومی از mlx-lm، در هیچ درخواست pull باز، یا در محیط اجرای bundled LM Studio وجود ندارد.

ما سعی کردیم DiffusionGemma را با Hermes از طریق NVIDIA NIM اجرا کنیم. مدل بارگذاری شد، اما سپس: "agent init failed: Model google/diffusiongemma-26b-a4b-it has a context window of 8,192 tokens, which is below the minimum 64,000 required by Hermes Agent." (خطای آغاز به کار عامل: مدل google/diffusiongemma-26b-a4b-it دارای یک پنجره زمینه ۸۱۹۲ توکنی است که کمتر از حداقل ۶۴۰۰۰ توکن مورد نیاز Hermes Agent است.)

به طور دقیق: پنجره زمینه واقعی DiffusionGemma، ۲۵۶ هزار توکن است. عدد ۸۱۹۲ توکن به دلیل خطای پیش‌فرض NVIDIA بود، نه محدودیت معماری مدل.

در عمل، پیکربندی صحیح آن برای استفاده عامل‌محور (agentic use) نیازمند کار دستی است که اکثر کاربران عادی هنوز آن را انجام نداده‌اند، و Hermes Agent بدون آن به سادگی راه‌اندازی نخواهد شد. سرعت موازی هیچ معنایی ندارد اگر عامل نتواند شروع به کار کند.

امیدواریم در چند روز آینده، جامعه منابع بهتری برای اجرای این مدل‌ها ارائه دهد.

این در واقع برای چه کسانی است

توسعه‌دهندگان دارای سخت‌افزار NVIDIA RTX 4090 یا 5090 که ابزارهای بی‌درنگ (real-time) می‌سازند – ویرایشگرهای درون‌خطی، تکمیل خودکار، تکمیل کد، تولید ساختاریافته. این هدف است. همانطور که Decrypt در ماه مه پوشش داد، گوگل به طور مداوم در تلاش بوده تا استنتاج محلی را بدون سخت‌افزار جدید سریع‌تر کند.

برای محققان، تولید دوطرفه (bidirectional generation) قلمرویی را باز می‌کند که مدل‌های خودرگرسیو به سادگی نمی‌توانند به آن دست یابند – توالی‌های پروتئینی، نمودارهای ریاضی، هر چیزی که موقعیت N به موقعیت N+50 وابسته است. این چیز کوچکی نیست.

گوگل Gemma 4 را تحت مجوز Apache 2.0 در ماه آوریل راه‌اندازی کرد، و DiffusionGemma این استراتژی را ادامه می‌دهد. از امروز، یک PR (درخواست pull) پیش‌نویس llama.cpp نیز برای آن باز شده است. هنگامی که مجموعه ابزارها (toolchain) خود را با آن تطبیق دهند، این مدل به مخاطبان بسیار گسترده‌تری می‌رسد.

روی یک دستگاه با یک پردازنده گرافیکی مجزا و قدرتمند، ۱۰۰۰ توکن در ثانیه واقعی است.

رمزارز های محبوب
همین حالا ثبت‌نام کنید، هیچ به‌روزرسانی‌ای را از دست ندهید!