
Google a lancé DiffusionGemma aujourd'hui, une IA à modèle ouvert qui génère du texte de la même manière que les générateurs d'images créent des images : en partant du bruit, puis en affinant jusqu'à ce que cela ait du sens. Il atteint 1 000 tokens par seconde sur un NVIDIA H100. (Les tokens sont l'unité de base d'information qu'un modèle d'IA gère.) Cela signifie qu'il est quatre fois plus rapide que le Gemma standard. Il est également gratuit, sous licence Apache 2.0, avec ses poids disponibles sur Hugging Face.
Le hic, comme toujours, réside dans les détails. Selon l'annonce de Google, le modèle atteint "plus de 700 tokens par seconde sur NVIDIA GeForce RTX 5090". Il est également en deçà du Gemma 4 standard en termes de qualité de sortie.
Google le dit lui-même. C'est un modèle axé sur la vitesse, pas une amélioration de la qualité.
Chaque LLM que vous avez utilisé est une machine à écrire. Un token à la fois, chaque mot dépendant du précédent. C'est ainsi que fonctionnent les architectures autorégressives.
DiffusionGemma ne fonctionne pas ainsi. Au lieu de générer des tokens séquentiellement, il commence par des morceaux de texte brouillé raffinés en parallèle. Selon le guide des développeurs de Google, il "commence avec une toile de tokens de remplacement aléatoires" et fixe itérativement les tokens 'confiants' jusqu'à ce que l'ensemble du bloc se mette en place. Deux cent cinquante-six tokens par passe avant. Le GPU reste occupé.
L'effet secondaire est une attention bidirectionnelle – chaque token peut "voir" tous les autres tokens pendant sa génération, ce qui est impossible dans les modèles autorégressifs (ils ne peuvent pas voir l'avenir, ce qui va être encodé). Cela le rend exceptionnellement performant pour les tâches où la fin de la réponse contraint le début : remplissage de code, sortie structurée, problèmes à fortes contraintes, etc. Google a affiné une version pour résoudre le Sudoku comme démonstration. Le modèle de base obtenait environ 0 % de bonnes réponses.
La version affinée a atteint 80 %.
La diffusion de texte est un projet de recherche depuis des années. MDLM, SEDD, LLaDA, Dream — des modèles académiques qui ont prouvé que l'approche fonctionnait à petite échelle et sont restés principalement des preuves de concept. Inception Labs a lancé Mercury 2 en février 2026 comme le premier modèle de raisonnement par diffusion commercial, revendiquant des vitesses cinq fois supérieures à celles des concurrents optimisés pour la vitesse.
Mais rien de tout cela n'était open-weight, et rien n'était accompagné d'un support dès le premier jour dans vLLM, Hugging Face Transformers et Unsloth. DiffusionGemma est la première sortie majeure en open-source d'un laboratoire de premier plan.
Il y a aussi une ironie historique à noter. Les générateurs d'images ont commencé comme des modèles de diffusion (d'où le nom Stable Diffusion) et se dirigent maintenant vers des architectures autorégressives pour une meilleure qualité. Les modèles de langage ont commencé comme autorégressifs et expérimentent maintenant la diffusion pour la vitesse.
L'exécution efficace de DiffusionGemma nécessite un 'drafter' – un module léger qui propose des blocs de tokens en parallèle, que le modèle principal vérifie ensuite en une seule passe avant. C'est ce qu'on appelle le décodage spéculatif. DFlash est un framework publié début 2026 qui utilise un petit modèle de diffusion comme 'drafter', permettant une accélération de plus de 6x sur certaines tâches. C'est le moteur qui rend cette classe de modèles pratique.
Le problème : DiffusionGemma a besoin d'un 'drafter' spécifique pour fonctionner localement via MLX – le framework d'apprentissage automatique d'Apple pour Apple Silicon. Ce module n'existe dans aucune version publique de mlx-lm, dans aucune demande de pull request ouverte, ni dans le runtime intégré de LM Studio.
Nous avons tenté d'exécuter DiffusionGemma avec Hermes via NVIDIA NIM. Le modèle s'est chargé, mais ensuite : "échec de l'initialisation de l'agent : le modèle google/diffusiongemma-26b-a4b-it a une fenêtre de contexte de 8 192 tokens, ce qui est inférieur au minimum de 64 000 requis par Hermes Agent."
Pour être précis : la fenêtre de contexte réelle de DiffusionGemma est de 256K tokens. Le chiffre de 8 192 était dû à une erreur de configuration par défaut de Nvidia, et non à une limite architecturale du modèle.
En pratique, le configurer correctement pour un usage 'agentique' nécessite un travail manuel que la plupart des utilisateurs quotidiens n'ont pas encore maîtrisé, et Hermes Agent ne s'initialisera tout simplement pas sans cela. La vitesse parallèle ne signifie rien si l'agent ne peut pas démarrer.
Espérons que dans les prochains jours, la communauté produira de meilleures ressources pour exécuter ces modèles.
Aux développeurs disposant de matériel NVIDIA RTX 4090 ou 5090 et créant des outils en temps réel – éditeurs intégrés, auto-complétion, remplissage de code, génération structurée. C'est la cible. Comme Decrypt l'a rapporté en mai, Google s'efforce constamment d'accélérer l'inférence locale sans nouveau matériel.
Pour les chercheurs, la génération bidirectionnelle ouvre un territoire que les modèles autorégressifs ne peuvent tout simplement pas atteindre – séquences de protéines, graphes mathématiques, tout ce où la position N dépend de la position N+50. Ce n'est pas anodin.
Google a lancé Gemma 4 sous licence Apache 2.0 en avril, et DiffusionGemma poursuit cette stratégie. Il y a déjà une demande de pull request llama.cpp en cours d'examen à ce jour. Lorsque la chaîne d'outils sera à jour, cela atteindra un public beaucoup plus large.
Sur une machine équipée d'un GPU discret performant, 1 000 tokens par seconde, c'est une réalité.