HomeLBank Nieuwscentrum
Google's DiffusionGemma AI haalt 1.000 tokens per seconde — en het is gratis
google-new-open-model-generates-text-diffusiongemma
Google's DiffusionGemma AI haalt 1.000 tokens per seconde — en het is gratis
DiffusionGemma behaalt 1.000 tokens per seconde door de woord-voor-woord generatie volledig te verlaten. Het werkt echter nog niet op de meeste computers.
2026-06-10 Bron:decrypt.co

In het kort

  • Google heeft DiffusionGemma uitgebracht, een gratis model met open gewichten dat hele blokken van 256 tokens tegelijk genereert via tekstdiffusie – met een snelheid van meer dan 1.000 tokens per seconde op een NVIDIA H100, vier keer sneller dan standaard autoregressieve modellen.
  • De aangepaste 'drafter'-module die DiffusionGemma nodig heeft voor lokale inferentie, bestaat nog niet in een publieke runtime – niet in mlx-lm, niet in LM Studio – waardoor het vandaag de dag effectief onbruikbaar is op de meeste consumentensystemen.
  • Op NVIDIA NIM was het model vooraf geconfigureerd met 8.192 tokens aan context – onder de drempel van 64.000 tokens die agentic frameworks zoals Hermes Agent vereisen – wat betekent dat autonome workflows niet zullen draaien zonder handmatige herconfiguratie.

Google heeft vandaag DiffusionGemma uitgebracht, een open AI-model dat tekst genereert op de manier waarop afbeeldingsgeneratoren beelden creëren: begin met ruis, verfijn totdat het logisch is. Het haalt 1.000 tokens per seconde op een NVIDIA H100. (Tokens zijn de basiseenheid van informatie die een AI-model verwerkt.) Dat betekent dat het vier keer sneller is dan de reguliere Gemma. Het is ook gratis, onder Apache 2.0-licentie, met gewichten beschikbaar op Hugging Face.

Het addertje onder het gras zit, zoals altijd, in de kleine lettertjes. Volgens de aankondiging van Google haalt het model "meer dan 700 tokens per seconde op NVIDIA GeForce RTX 5090." Het presteert ook minder goed dan de standaard Gemma 4 wat betreft uitvoerkwaliteit.

Google zegt het zelf. Dit is een snelheidsmodel, geen kwaliteitsverbetering.

Wat dit werkelijk doet

Elke LLM die je hebt gebruikt, is een typemachine. Eén token tegelijk, waarbij elk woord afhankelijk is van het vorige. Zo werken autoregressieve architecturen.

DiffusionGemma doet dat niet. In plaats van tokens sequentieel te genereren, begint het met verfijnde stukken versleutelde tekst parallel. Volgens de ontwikkelaarsgids van Google "begint het met een canvas van willekeurige placeholder-tokens" en vergrendelt het iteratief zekere tokens totdat het hele blok scherp wordt. Tweehonderdzesenvijftig tokens per forward pass. De GPU blijft bezig.

Het neveneffect is bidirectionele aandacht – elk token kan elk ander token zien terwijl het wordt gegenereerd, wat onmogelijk is in autoregressieve modellen (ze kunnen de toekomst niet zien, wat gecodeerd zal worden). Dit maakt het uitzonderlijk goed in taken waarbij het einde van het antwoord het begin beperkt: code-aanvulling, gestructureerde uitvoer, probleemoplossing met zware beperkingen, enz. Google heeft een versie gefinetuned om Sudoku op te lossen als demo. Het basismodel kreeg ongeveer 0% van de puzzels goed.

De gefinetunede versie haalde 80%.

Tekstdiffusie is al jaren een onderzoeksproject. MDLM, SEDD, LLaDA, Dream — academische modellen die bewezen dat de aanpak werkte op kleine schaal en meestal proof-of-concepts bleven. Inception Labs lanceerde Mercury 2 in februari 2026 als het eerste commerciële diffusie-redeneermodel, met claims van snelheden die vijf keer hoger zijn dan die van geoptimaliseerde concurrenten.

Maar niets daarvan was met open gewichten, en niets daarvan kwam met 'day-zero' ondersteuning in vLLM, Hugging Face Transformers en Unsloth. DiffusionGemma is de eerste grote openbare release van een top-lab.

Er is ook een historische ironie die het vermelden waard is. Afbeeldingsgeneratoren begonnen als diffusiemodellen (vandaar de naam Stable Diffusion) en bewegen nu richting autoregressieve architecturen voor betere kwaliteit. Taalmodellen begonnen als autoregressief en experimenteren nu met diffusie voor snelheid.

Waarom het (voorlopig) lastig is om te draaien

Om DiffusionGemma efficiënt te draaien, is een 'drafter' nodig – een lichtgewicht module die tokenblokken parallel voorstelt, die het hoofdmodel vervolgens in één forward pass verifieert. Dit wordt 'speculative decoding' genoemd. DFlash is een framework dat begin 2026 werd gepubliceerd en een klein diffusiemodel gebruikt als drafter, wat een snelheidsverhoging van meer dan 6x mogelijk maakt bij sommige taken. Het is de motor die deze klasse van modellen praktisch maakt.

Het probleem: DiffusionGemma heeft een specifieke 'drafter' nodig om lokaal te draaien via MLX — Apple's machine learning framework voor Apple Silicon. Die module bestaat nog niet in een publieke versie van mlx-lm, in geen enkele openstaande pull request, of in de gebundelde runtime van LM Studio.

We probeerden DiffusionGemma met Hermes via NVIDIA NIM te draaien. Het model laadde, maar toen: "agent init failed: Model google/diffusiongemma-26b-a4b-it has a context window of 8,192 tokens, which is below the minimum 64,000 required by Hermes Agent."

Om precies te zijn: de daadwerkelijke context window van DiffusionGemma is 256K tokens. De 8.192 was een fout van Nvidia als standaardinstelling, niet de architectonische limiet van het model.

In de praktijk vereist de juiste configuratie voor agentic gebruik handmatig werk dat de meeste dagelijkse gebruikers nog niet onder de knie hebben, en Hermes Agent zal zonder die configuratie eenvoudigweg niet initialiseren. Parallelle snelheid betekent niets als de agent niet kan opstarten.

Hopelijk zal de community in de komende dagen betere middelen produceren om deze modellen te draaien.

Voor wie dit eigenlijk is

Ontwikkelaars met NVIDIA RTX 4090- of 5090-hardware die real-time tools bouwen – inline editors, autocomplete, code-aanvulling, gestructureerde generatie. Dat is het doel. Zoals Decrypt in mei al meldde, zet Google gestaag in op het versnellen van lokale inferentie zonder nieuwe hardware.

Voor onderzoekers opent bidirectionele generatie een terrein dat autoregressieve modellen eenvoudigweg niet kunnen bereiken – proteïnesequenties, wiskundige grafieken, alles waarbij positie N afhankelijk is van positie N+50. Dat is geen klein detail.

Google lanceerde Gemma 4 onder Apache 2.0 in april, en DiffusionGemma zet die strategie voort. Er is al een draft llama.cpp PR open sinds vandaag. Wanneer de toolchain bijtrekt, zal dit een veel breder publiek bereiken.

Op een machine met een capabele discrete GPU zijn 1.000 tokens per seconde echt.