AcasăCentrul de știri LBank
AI-ul DiffusionGemma de la Google atinge 1.000 de tokenuri pe secundă—și este gratuit
google-new-open-model-generates-text-diffusiongemma
AI-ul DiffusionGemma de la Google atinge 1.000 de tokenuri pe secundă—și este gratuit
DiffusionGemma atinge 1.000 de tokenuri pe secundă renunțând complet la generarea cuvânt cu cuvânt. Pur și simplu nu rulează încă pe majoritatea mașinilor oamenilor.
2026-06-10 Sursă:decrypt.co

Pe scurt

  • Google a lansat DiffusionGemma, un model gratuit cu greutate deschisă care generează blocuri întregi de 256 de tokeni simultan prin difuzie de text – atingând peste 1.000 de tokeni pe secundă pe un NVIDIA H100, de patru ori mai rapid decât modelele autoregresive standard.
  • Modulul personalizat de elaborare (drafter) de care are nevoie DiffusionGemma pentru inferența locală nu există încă în niciun mediu de execuție public – nici în mlx-lm, nici în LM Studio – făcându-l efectiv imposibil de rulat pe majoritatea configurațiilor de consum astăzi.
  • Pe NVIDIA NIM, modelul a fost preconfigurat cu 8.192 de tokeni de context – sub pragul de 64.000 de tokeni necesar de cadrele agentice precum Hermes Agent – ceea ce înseamnă că fluxurile de lucru autonome nu vor rula fără o reconfigurare manuală.

Google a lansat astăzi DiffusionGemma, un model AI deschis care generează text în același mod în care generatoarele de imagini creează imagini: încep cu zgomot, rafinează până când are sens. Atinge 1.000 de tokeni pe secundă pe un NVIDIA H100. (Tokenii sunt unitatea de bază de informație pe care o gestionează un model AI.) Asta înseamnă că este de patru ori mai rapid decât Gemma obișnuit. Este, de asemenea, gratuit, sub licență Apache 2.0, cu greutăți disponibile pe Hugging Face.

Prinderea, ca întotdeauna, este în detaliile mici. Conform anunțului Google, modelul atinge "700+ tokeni pe secundă pe NVIDIA GeForce RTX 5090". De asemenea, rămâne în urma modelului Gemma 4 standard în ceea ce privește calitatea rezultatului.

Google o spune chiar ei. Acesta este un model axat pe viteză, nu o îmbunătățire a calității.

Ce face de fapt acest lucru

Fiecare LLM pe care l-ați folosit este o mașină de scris. Un token la un moment dat, fiecare cuvânt depinzând de cel anterior. Așa funcționează arhitecturile autoregresive.

DiffusionGemma nu face asta. În loc să genereze tokeni secvențial, începe cu fragmente rafinate de text amestecat în paralel. Conform ghidului pentru dezvoltatori de la Google, "începe cu o pânză de tokeni substituent aleatori" și blochează iterativ tokenii siguri până când întregul bloc se conturează. Două sute cincizeci și șase de tokeni per trecere înainte. GPU-ul rămâne ocupat.

Efectul secundar este atenția bidirecțională – fiecare token poate vedea fiecare alt token în timp ce este generat, ceea ce este imposibil în modelele autoregresive (acestea nu pot vedea viitorul, ceea ce urmează să fie codificat). Acest lucru îl face neobișnuit de bun la sarcini în care sfârșitul răspunsului constrânge începutul: completarea codului, ieșirea structurată, problemele cu constrângeri puternice etc. Google a ajustat o versiune pentru a rezolva Sudoku ca demonstrație. Modelul de bază a rezolvat aproximativ 0% din puzzle-uri corect.

Versiunea ajustată a atins 80%.

Difuzia de text a fost un proiect de cercetare de ani de zile. MDLM, SEDD, LLaDA, Dream – modele academice care au dovedit că abordarea funcționează la scară mică și au rămas în mare parte doar ca dovezi de concept. Inception Labs a lansat Mercury 2 în februarie 2026 ca primul model comercial de raționament prin difuzie, pretinzând viteze de cinci ori mai rapide decât concurenții optimizați pentru viteză.

Dar nimic din toate acestea nu era open-weight, și nimic din toate acestea nu a venit cu suport din prima zi în vLLM, Hugging Face Transformers și Unsloth. DiffusionGemma este prima lansare majoră open-source de la un laborator de top.

Există, de asemenea, o ironie istorică demnă de remarcat. Generatoarele de imagini au început ca modele de difuzie (de unde și numele Stable Diffusion) și acum se îndreaptă către arhitecturi autoregresive pentru o calitate mai bună. Modelele lingvistice au început ca autoregresive și acum experimentează cu difuzia pentru viteză.

De ce este dificil de rulat... deocamdată

Rularea eficientă a DiffusionGemma necesită un "drafter" – un modul ușor care propune blocuri de tokeni în paralel, pe care modelul principal le verifică apoi într-o singură trecere înainte. Acest lucru se numește decodare speculativă. DFlash este un cadru publicat la începutul anului 2026 care utilizează un mic model de difuzie ca drafter, permițând o accelerare de peste 6 ori la anumite sarcini. Este motorul care face ca această clasă de modele să fie practică.

Problema: DiffusionGemma are nevoie de un drafter specific pentru a rula local prin MLX – cadrul de învățare automată al Apple pentru Apple Silicon. Acel modul nu există în nicio versiune publică de mlx-lm, în nicio cerere de extragere (pull request) deschisă, sau în mediul de execuție inclus în LM Studio.

Am încercat să rulăm DiffusionGemma cu Hermes prin NVIDIA NIM. Modelul s-a încărcat, dar apoi: "agent init failed: Model google/diffusiongemma-26b-a4b-it are o fereastră de context de 8.192 de tokeni, ceea ce este sub minimul de 64.000 necesar de Hermes Agent."

Mai precis: fereastra de context reală a DiffusionGemma este de 256K tokeni. Cifra de 8.192 a fost o eroare a Nvidia prin setările implicite, nu o limită arhitecturală a modelului.

În practică, configurarea corectă pentru utilizare agentică necesită muncă manuală pe care majoritatea utilizatorilor obișnuiți nu au înțeles-o încă, iar Hermes Agent pur și simplu nu se va inițializa fără ea. Viteza paralelă nu înseamnă nimic dacă agentul nu poate porni.

Sperăm că, în următoarele câteva zile, comunitatea va produce resurse mai bune pentru a rula aceste modele.

Cui îi este destinat de fapt acest lucru

Dezvoltatorilor cu hardware NVIDIA RTX 4090 sau 5090 care construiesc instrumente în timp real – editori inline, completare automată, completare cod, generare structurată. Aceasta este ținta. Așa cum a menționat Decrypt în mai, Google a făcut eforturi constante pentru a face inferența locală mai rapidă fără hardware nou.

Pentru cercetători, generarea bidirecțională deschide un teritoriu pe care modelele autoregresive pur și simplu nu-l pot atinge – secvențe proteice, grafuri matematice, orice în care poziția N depinde de poziția N+50. Asta nu este un lucru mic.

Google a lansat Gemma 4 sub Apache 2.0 în aprilie, iar DiffusionGemma continuă această strategie. Există deja o cerere de extragere (PR) llama.cpp în lucru începând de astăzi. Când setul de instrumente (toolchain) se va alinia, acest lucru va ajunge la o audiență mult mai largă.

Pe o mașină cu un GPU discret capabil, 1.000 de tokeni pe secundă este o realitate.