InicioCentro de noticias de LBank
La IA DiffusionGemma de Google alcanza 1.000 tokens por segundo — y es gratis
google-new-open-model-generates-text-diffusiongemma
La IA DiffusionGemma de Google alcanza 1.000 tokens por segundo — y es gratis
DiffusionGemma alcanza los 1.000 tokens por segundo al desechar completamente la generación palabra por palabra. Sin embargo, todavía no se ejecuta en la mayoría de los equipos.
2026-06-10 Fuente:decrypt.co

En breve

  • Google lanzó DiffusionGemma, un modelo de peso abierto y gratuito que genera bloques enteros de 256 tokens simultáneamente mediante difusión de texto, alcanzando más de 1.000 tokens por segundo en una NVIDIA H100, cuatro veces más rápido que los modelos autorregresivos estándar.
  • El módulo 'drafter' personalizado que DiffusionGemma necesita para la inferencia local aún no existe en ningún entorno de ejecución público (ni en mlx-lm, ni en LM Studio), lo que lo hace inoperable en la mayoría de las configuraciones de consumo actuales.
  • En NVIDIA NIM, el modelo llegó preconfigurado con 8.192 tokens de contexto, por debajo del umbral de 64.000 tokens que requieren los marcos agénticos como Hermes Agent, lo que significa que los flujos de trabajo autónomos no funcionarán sin reconfiguración manual.

Google lanzó hoy DiffusionGemma, una IA de modelo abierto que genera texto de la misma manera que los generadores de imágenes crean imágenes: comienza con ruido, refina hasta que tenga sentido. Alcanza los 1.000 tokens por segundo en una NVIDIA H100. (Los tokens son la unidad básica de información que maneja un modelo de IA.) Esto significa que es cuatro veces más rápido que el Gemma regular. También es gratuito, bajo licencia Apache 2.0, con sus pesos disponibles en Hugging Face.

La trampa, como siempre, está en la letra pequeña. Según el anuncio de Google, el modelo alcanza "más de 700 tokens por segundo en una NVIDIA GeForce RTX 5090". También se queda por detrás del Gemma 4 estándar en calidad de salida.

Google lo afirma. Este es un modelo de velocidad, no una mejora de calidad.

Lo que esto realmente hace

Cada LLM que has utilizado es una máquina de escribir. Un token a la vez, con cada palabra dependiendo de la anterior. Así es como funcionan las arquitecturas autorregresivas.

DiffusionGemma no hace eso. En lugar de generar tokens secuencialmente, comienza con fragmentos refinados de texto desordenado en paralelo. Según la guía para desarrolladores de Google, "comienza con un lienzo de tokens aleatorios de marcador de posición" y bloquea iterativamente los tokens seguros hasta que todo el bloque se enfoca. Doscientos cincuenta y seis tokens por pasada hacia adelante. La GPU se mantiene ocupada.

El efecto secundario es la atención bidireccional: cada token puede 'ver' a todos los demás tokens mientras se genera, lo cual es imposible en los modelos autorregresivos (no pueden ver el futuro, lo que se codificará). Esto lo hace inusualmente bueno en tareas donde el final de la respuesta restringe el principio: autocompletado de código, salida estructurada, problemas con muchas restricciones, etc. Google ajustó una versión para resolver Sudokus como demostración. El modelo base acertó aproximadamente el 0% de los rompecabezas.

La versión ajustada alcanzó el 80%.

La difusión de texto ha sido un proyecto de investigación durante años. MDLM, SEDD, LLaDA, Dream: modelos académicos que demostraron que el enfoque funcionaba a pequeña escala y en su mayoría se mantuvieron como pruebas de concepto. Inception Labs lanzó Mercury 2 en febrero de 2026 como el primer modelo comercial de razonamiento por difusión, afirmando velocidades cinco veces más rápidas que los competidores optimizados para la velocidad.

Pero nada de eso era de peso abierto, y ninguno venía con soporte desde el primer día en vLLM, Hugging Face Transformers y Unsloth. DiffusionGemma es el primer lanzamiento abierto importante de un laboratorio de primer nivel.

También hay una ironía histórica que vale la pena señalar. Los generadores de imágenes comenzaron como modelos de difusión (de ahí el nombre Stable Diffusion) y ahora se están moviendo hacia arquitecturas autorregresivas para una mejor calidad. Los modelos de lenguaje comenzaron como autorregresivos y ahora están experimentando con la difusión para la velocidad.

Por qué es difícil de ejecutar... por ahora

Ejecutar DiffusionGemma de manera eficiente requiere un 'drafter' (borrador), un módulo ligero que propone bloques de tokens en paralelo, los cuales el modelo principal verifica en una única pasada hacia adelante. Esto se conoce como decodificación especulativa. DFlash es un marco publicado a principios de 2026 que utiliza un pequeño modelo de difusión como borrador, lo que permite una aceleración de más de 6 veces en algunas tareas. Es el motor que hace práctica esta clase de modelo.

El problema: DiffusionGemma necesita un 'drafter' específico para ejecutarse localmente a través de MLX, el marco de aprendizaje automático de Apple para Apple Silicon. Ese módulo no existe en ninguna versión pública de mlx-lm, en ninguna solicitud de extracción abierta, ni en el entorno de ejecución incluido de LM Studio.

Intentamos ejecutar DiffusionGemma con Hermes a través de NVIDIA NIM. El modelo cargó, pero luego: "falló la inicialización del agente: El modelo google/diffusiongemma-26b-a4b-it tiene una ventana de contexto de 8.192 tokens, lo cual está por debajo del mínimo de 64.000 requerido por Hermes Agent".

Para ser precisos: la ventana de contexto real de DiffusionGemma es de 256K tokens. La cifra de 8.192 fue un error de configuración predeterminada de Nvidia, no un límite arquitectónico del modelo.

En la práctica, configurarlo correctamente para el uso agéntico requiere un trabajo manual que la mayoría de los usuarios habituales aún no han descubierto, y Hermes Agent simplemente no se inicializará sin ello. La velocidad paralela no significa nada si el agente no puede arrancar.

Con suerte, en los próximos días, la comunidad producirá mejores recursos para ejecutar estos modelos.

Para quién es esto realmente

Desarrolladores con hardware NVIDIA RTX 4090 o 5090 que construyen herramientas en tiempo real: editores en línea, autocompletado, relleno de código, generación estructurada. Ese es el objetivo. Como cubrió Decrypt en mayo, Google ha estado impulsando constantemente hacer la inferencia local más rápida sin nuevo hardware.

Para los investigadores, la generación bidireccional abre un territorio al que los modelos autorregresivos simplemente no pueden llegar: secuencias de proteínas, gráficos matemáticos, cualquier cosa donde la posición N dependa de la posición N+50. Eso no es poca cosa.

Google lanzó Gemma 4 bajo Apache 2.0 en abril, y DiffusionGemma continúa esa estrategia. Ya hay un borrador de PR para llama.cpp abierto a día de hoy. Cuando el conjunto de herramientas se ponga al día, esto llegará a una audiencia mucho más amplia.

En una máquina con una GPU discreta capaz, 1.000 tokens por segundo es una realidad.