
Inilabas ng Google ang DiffusionGemma ngayon, isang open model AI na bumubuo ng text sa paraang lumilikha ng mga larawan ang mga image generator: magsisimula sa ingay, pinuhin hanggang magkaroon ng saysay. Umabot ito ng 1,000 tokens bawat segundo sa isang NVIDIA H100. (Ang mga token ay ang batayang yunit ng impormasyon na pinangangasiwaan ng isang AI model.) Nangangahulugan iyon na ito ay apat na beses na mas mabilis kaysa sa regular na Gemma. Ito rin ay libre, Apache 2.0, na may weights sa Hugging Face.
Ang catch, gaya ng dati, ay nasa fine print. Ayon sa anunsyo ng Google, ang modelo ay umaabot sa "700+ tokens bawat segundo sa NVIDIA GeForce RTX 5090." Ito rin ay mas mababa ang kalidad kumpara sa standard na Gemma 4 sa output.
Sinabi mismo ng Google. Ito ay isang speed model, hindi isang quality upgrade.
Bawat LLM na ginamit mo ay isang makinilya. Isang token sa isang pagkakataon na ang bawat salita ay nakasalalay sa huli. Ganyan gumagana ang mga autoregressive na arkitektura.
Hindi ginagawa iyon ng DiffusionGemma. Sa halip na bumuo ng mga token nang sunud-sunod, nagsisimula ito sa mga pinino na bloke ng garbled text nang sabay-sabay. Ayon sa gabay ng developer ng Google, ito ay "nagsisimula sa isang canvas ng random na placeholder tokens" at paulit-ulit na ina-lock ang mga confident token hanggang sa ang buong bloke ay maging malinaw. Dalawang daan at limampu't anim na token bawat forward pass. Ang GPU ay nananatiling abala.
Ang side effect ay bidirectional attention—bawat token ay maaaring makita ang bawat isa pang token habang nabubuo, na imposibleng mangyari sa mga autoregressive na modelo (hindi nila makita ang hinaharap, kung ano ang ia-encode). Nagiging pambihira itong mahusay sa mga gawain kung saan ang dulo ng sagot ay nagtatakda sa simula: pagpuno ng code, nakabalangkas na output, mga problemang may mahigpit na paghihigpit, atbp. Nag-fine-tune ang Google ng isang bersyon upang lutasin ang Sudoku bilang demo. Ang batayang modelo ay halos 0% ng mga puzzle ang nasagot nang tama.
Ang fine-tuned na bersyon ay umabot sa 80%.
Ang text diffusion ay naging isang proyekto ng pananaliksik sa loob ng maraming taon. MDLM, SEDD, LLaDA, Dream—mga modelong akademiko na nagpatunay na gumagana ang pamamaraan sa maliliit na sukat at karamihan ay nanatiling proof of concepts. Inilabas ng Inception Labs ang Mercury 2 noong Pebrero 2026 bilang kauna-unahang komersyal na diffusion reasoning model, na nagke-claim ng bilis na limang beses na mas mabilis kaysa sa mga kalaban na na-optimize para sa bilis.
Ngunit wala sa mga iyon ang open-weight, at wala sa mga iyon ang may day-zero support sa vLLM, Hugging Face Transformers, at Unsloth. Ang DiffusionGemma ang kauna-unahang malaking open release mula sa isang tier-one lab.
Mayroon ding isang makasaysayang kabalintunaan na nararapat banggitin. Ang mga image generator ay nagsimula bilang mga diffusion model (kaya't tinawag na Stable Diffusion) at ngayon ay lumilipat patungo sa mga autoregressive na arkitektura para sa mas mahusay na kalidad. Ang mga language model ay nagsimula bilang autoregressive at ngayon ay nag-eeksperimento sa diffusion para sa bilis.
Ang pagpapatakbo ng DiffusionGemma nang mahusay ay nangangailangan ng drafter—isang lightweight module na nagmumungkahi ng mga token block nang parallel, na pagkatapos ay i-verify ng pangunahing modelo sa isang forward pass. Ito ay tinatawag na speculative decoding. Ang DFlash ay isang framework na inilathala sa simula ng 2026 na gumagamit ng isang maliit na diffusion model bilang drafter, na nagbibigay-daan sa mahigit 6x na pagpapabilis sa ilang gawain. Ito ang engine na nagpapadali sa uri ng modelong ito.
Ang problema: Ang DiffusionGemma ay nangangailangan ng isang partikular na drafter upang tumakbo nang lokal sa pamamagitan ng MLX—ang machine learning framework ng Apple para sa Apple Silicon. Ang module na iyon ay wala sa anumang pampublikong bersyon ng mlx-lm, sa anumang open pull request, o sa bundled runtime ng LM Studio.
Sinubukan naming patakbuhin ang DiffusionGemma sa Hermes sa pamamagitan ng NVIDIA NIM. Nag-load ang modelo, ngunit pagkatapos ay: "nabigo ang agent init: Ang Model google/diffusiongemma-26b-a4b-it ay may context window na 8,192 token, na mas mababa sa minimum na 64,000 na kailangan ng Hermes Agent."
Upang maging tumpak: Ang aktwal na context window ng DiffusionGemma ay 256K tokens. Ang bilang na 8,192 ay dulot ng pagkakamali ng Nvidia bilang default, hindi ang architectural limit ng modelo.
Sa practice, ang tamang pag-configure nito para sa agentic use ay nangangailangan ng manual na trabaho na hindi pa naiisip ng karamihan sa mga ordinaryong user, at ang Hermes Agent ay hindi lamang magsisimula kung wala ito. Ang bilis ng parallel ay walang saysay kung hindi makapag-boot ang agent.
Sana, sa mga susunod na araw, ang komunidad ay makapagbigay ng mas mahusay na resources upang mapatakbo ang mga modelong ito.
Mga developer na may NVIDIA RTX 4090 o 5090 hardware na gumagawa ng mga real-time na tool—inline editors, autocomplete, code infilling, structured generation. Iyan ang target. Gaya ng sakop ng Decrypt noong Mayo, patuloy ang pagsisikap ng Google na pabilisin ang lokal na inference nang walang bagong hardware.
Para sa mga mananaliksik, ang bidirectional generation ay nagbubukas ng teritoryo na hindi kayang abutin ng mga autoregressive na modelo—mga protein sequence, mathematical graphs, anumang bagay kung saan ang posisyon N ay nakasalalay sa posisyon N+50. Hindi iyon maliit na bagay.
Inilunsad ng Google ang Gemma 4 sa ilalim ng Apache 2.0 noong Abril, at ipinagpatuloy ng DiffusionGemma ang diskarte na iyon. Mayroon nang draft na llama.cpp PR na bukas ngayon. Kapag nakahabol ang toolchain, maaabot ito ng mas maraming tao.
Sa isang makina na may kakayahang discrete GPU, ang 1,000 tokens bawat segundo ay totoo.