Crypto News Tag Aggregation at Espesyal na Balita

google-new-open-model-generates-text-diffusiongemma

Google DiffusionGemma AI, Nakaabot ng 1,000 Tokens Per Second—At Libre

Nakamit ng DiffusionGemma ang 1,000 tokens kada segundo sa pamamagitan ng ganap na pagtalikod sa sunud-sunod na pagbuo ng salita. Subalit, hindi pa ito gumagana sa karamihan ng mga computer ng tao.

2026-06-10 Pinagmulan:decrypt.co

Sa maikling salita

Inilabas ng Google ang DiffusionGemma, isang libreng open-weight na modelo na sabay-sabay na lumilikha ng buong 256-token na bloke sa pamamagitan ng text diffusion—umabot sa mahigit 1,000 token bawat segundo sa isang NVIDIA H100, apat na beses na mas mabilis kaysa sa karaniwang autoregressive na modelo.
Ang custom na drafter module na kailangan ng DiffusionGemma para sa local inference ay wala pa sa anumang pampublikong runtime—wala sa mlx-lm, wala sa LM Studio—na nagiging dahilan upang hindi ito mapatakbo sa karamihan ng consumer setups ngayon.
Sa NVIDIA NIM, ang modelo ay dumating na preconfigured sa 8,192 tokens ng konteksto—mas mababa sa 64,000-token na kailangan ng agentic frameworks tulad ng Hermes Agent—na nangangahulugang hindi gagana ang autonomous workflows nang walang manual na rekonfigurasyon.

Inilabas ng Google ang DiffusionGemma ngayon, isang open model AI na bumubuo ng text sa paraang lumilikha ng mga larawan ang mga image generator: magsisimula sa ingay, pinuhin hanggang magkaroon ng saysay. Umabot ito ng 1,000 tokens bawat segundo sa isang NVIDIA H100. (Ang mga token ay ang batayang yunit ng impormasyon na pinangangasiwaan ng isang AI model.) Nangangahulugan iyon na ito ay apat na beses na mas mabilis kaysa sa regular na Gemma. Ito rin ay libre, Apache 2.0, na may weights sa Hugging Face.

Ang catch, gaya ng dati, ay nasa fine print. Ayon sa anunsyo ng Google, ang modelo ay umaabot sa "700+ tokens bawat segundo sa NVIDIA GeForce RTX 5090." Ito rin ay mas mababa ang kalidad kumpara sa standard na Gemma 4 sa output.

Sinabi mismo ng Google. Ito ay isang speed model, hindi isang quality upgrade.

Ano ang ginagawa nito

Bawat LLM na ginamit mo ay isang makinilya. Isang token sa isang pagkakataon na ang bawat salita ay nakasalalay sa huli. Ganyan gumagana ang mga autoregressive na arkitektura.

Hindi ginagawa iyon ng DiffusionGemma. Sa halip na bumuo ng mga token nang sunud-sunod, nagsisimula ito sa mga pinino na bloke ng garbled text nang sabay-sabay. Ayon sa gabay ng developer ng Google, ito ay "nagsisimula sa isang canvas ng random na placeholder tokens" at paulit-ulit na ina-lock ang mga confident token hanggang sa ang buong bloke ay maging malinaw. Dalawang daan at limampu't anim na token bawat forward pass. Ang GPU ay nananatiling abala.

Ang side effect ay bidirectional attention—bawat token ay maaaring makita ang bawat isa pang token habang nabubuo, na imposibleng mangyari sa mga autoregressive na modelo (hindi nila makita ang hinaharap, kung ano ang ia-encode). Nagiging pambihira itong mahusay sa mga gawain kung saan ang dulo ng sagot ay nagtatakda sa simula: pagpuno ng code, nakabalangkas na output, mga problemang may mahigpit na paghihigpit, atbp. Nag-fine-tune ang Google ng isang bersyon upang lutasin ang Sudoku bilang demo. Ang batayang modelo ay halos 0% ng mga puzzle ang nasagot nang tama.

Ang fine-tuned na bersyon ay umabot sa 80%.

Ang text diffusion ay naging isang proyekto ng pananaliksik sa loob ng maraming taon. MDLM, SEDD, LLaDA, Dream—mga modelong akademiko na nagpatunay na gumagana ang pamamaraan sa maliliit na sukat at karamihan ay nanatiling proof of concepts. Inilabas ng Inception Labs ang Mercury 2 noong Pebrero 2026 bilang kauna-unahang komersyal na diffusion reasoning model, na nagke-claim ng bilis na limang beses na mas mabilis kaysa sa mga kalaban na na-optimize para sa bilis.

Ngunit wala sa mga iyon ang open-weight, at wala sa mga iyon ang may day-zero support sa vLLM, Hugging Face Transformers, at Unsloth. Ang DiffusionGemma ang kauna-unahang malaking open release mula sa isang tier-one lab.

Mayroon ding isang makasaysayang kabalintunaan na nararapat banggitin. Ang mga image generator ay nagsimula bilang mga diffusion model (kaya't tinawag na Stable Diffusion) at ngayon ay lumilipat patungo sa mga autoregressive na arkitektura para sa mas mahusay na kalidad. Ang mga language model ay nagsimula bilang autoregressive at ngayon ay nag-eeksperimento sa diffusion para sa bilis.

Bakit mahirap itong patakbuhin… sa ngayon

Ang pagpapatakbo ng DiffusionGemma nang mahusay ay nangangailangan ng drafter—isang lightweight module na nagmumungkahi ng mga token block nang parallel, na pagkatapos ay i-verify ng pangunahing modelo sa isang forward pass. Ito ay tinatawag na speculative decoding. Ang DFlash ay isang framework na inilathala sa simula ng 2026 na gumagamit ng isang maliit na diffusion model bilang drafter, na nagbibigay-daan sa mahigit 6x na pagpapabilis sa ilang gawain. Ito ang engine na nagpapadali sa uri ng modelong ito.

Ang problema: Ang DiffusionGemma ay nangangailangan ng isang partikular na drafter upang tumakbo nang lokal sa pamamagitan ng MLX—ang machine learning framework ng Apple para sa Apple Silicon. Ang module na iyon ay wala sa anumang pampublikong bersyon ng mlx-lm, sa anumang open pull request, o sa bundled runtime ng LM Studio.

Sinubukan naming patakbuhin ang DiffusionGemma sa Hermes sa pamamagitan ng NVIDIA NIM. Nag-load ang modelo, ngunit pagkatapos ay: "nabigo ang agent init: Ang Model google/diffusiongemma-26b-a4b-it ay may context window na 8,192 token, na mas mababa sa minimum na 64,000 na kailangan ng Hermes Agent."

Upang maging tumpak: Ang aktwal na context window ng DiffusionGemma ay 256K tokens. Ang bilang na 8,192 ay dulot ng pagkakamali ng Nvidia bilang default, hindi ang architectural limit ng modelo.

Sa practice, ang tamang pag-configure nito para sa agentic use ay nangangailangan ng manual na trabaho na hindi pa naiisip ng karamihan sa mga ordinaryong user, at ang Hermes Agent ay hindi lamang magsisimula kung wala ito. Ang bilis ng parallel ay walang saysay kung hindi makapag-boot ang agent.

Sana, sa mga susunod na araw, ang komunidad ay makapagbigay ng mas mahusay na resources upang mapatakbo ang mga modelong ito.

Para kanino talaga ito

Mga developer na may NVIDIA RTX 4090 o 5090 hardware na gumagawa ng mga real-time na tool—inline editors, autocomplete, code infilling, structured generation. Iyan ang target. Gaya ng sakop ng Decrypt noong Mayo, patuloy ang pagsisikap ng Google na pabilisin ang lokal na inference nang walang bagong hardware.

Para sa mga mananaliksik, ang bidirectional generation ay nagbubukas ng teritoryo na hindi kayang abutin ng mga autoregressive na modelo—mga protein sequence, mathematical graphs, anumang bagay kung saan ang posisyon N ay nakasalalay sa posisyon N+50. Hindi iyon maliit na bagay.

Inilunsad ng Google ang Gemma 4 sa ilalim ng Apache 2.0 noong Abril, at ipinagpatuloy ng DiffusionGemma ang diskarte na iyon. Mayroon nang draft na llama.cpp PR na bukas ngayon. Kapag nakahabol ang toolchain, maaabot ito ng mas maraming tao.

Sa isang makina na may kakayahang discrete GPU, ang 1,000 tokens bawat segundo ay totoo.

Patok na Babasahin

Nagdagdag ang mga Spot Bitcoin ETF ng U.S. ng $85.85 milyong pang-araw-araw na net inflows, na nagpapataas sa netong asset sa $79.65 bilyon

12 Mga Oras na Nakaraan

Kinasuhan ng CFTC ang New Mexico sa pinakabagong pagtatangka nitong igiit ang kapangyarihan sa mga merkado ng pagtaya sa sports

17 Mga Oras na Nakaraan

Dating Tagapangulo ng SEC Gensler tinatanggihan ang paghahabol ng hurisdiksyon ng CFTC ukol sa pagtaya sa sports sa prediction market

19 Mga Oras na Nakaraan

Iba pang artikulo

Pinapasailalim ng Zimbabwe ang mga kumpanya ng crypto sa pangangasiwa ng RBZ sa bagong regulasyon ng AML

11 Mga Oras na Nakaraan

Pagbagsak ng presyo ng Bitcoin, sinusubok ang $100K na prediksyon ng Standard Chartered: nasa tamang direksyon pa ba ang pagtataya ni Geoffrey Kendrick?