
O Google lançou hoje o DiffusionGemma, um modelo de IA aberto que gera texto da mesma forma que os geradores de imagem criam figuras: começa com ruído, refina até fazer sentido. Ele atinge 1.000 tokens por segundo em uma NVIDIA H100. (Tokens são a unidade básica de informação que um modelo de IA processa.) Isso significa que é quatro vezes mais rápido que o Gemma regular. É também gratuito, Apache 2.0, com os pesos disponíveis no Hugging Face.
A pegadinha, como sempre, está nas letras miúdas. Segundo o anúncio do Google, o modelo atinge "mais de 700 tokens por segundo na NVIDIA GeForce RTX 5090". Ele também fica atrás do Gemma 4 padrão em qualidade de saída.
O próprio Google o diz. Este é um modelo de velocidade, não uma melhoria de qualidade.
Todo LLM que você já usou é uma máquina de escrever. Um token de cada vez, com cada palavra dependendo da anterior. É assim que as arquiteturas autorregressivas funcionam.
O DiffusionGemma não faz isso. Em vez de gerar tokens sequencialmente, ele começa com blocos refinados de texto embaralhado em paralelo. De acordo com o guia do desenvolvedor do Google, ele "começa com uma tela de tokens de preenchimento aleatórios" e bloqueia iterativamente tokens confiantes até que todo o bloco se foque. Duzentos e cinquenta e seis tokens por passagem direta. A GPU permanece ocupada.
O efeito colateral é a atenção bidirecional — cada token pode "ver" todos os outros tokens enquanto está sendo gerado, o que é impossível em modelos autorregressivos (eles não podem ver o futuro, o que será codificado). Isso o torna excepcionalmente bom em tarefas onde o fim da resposta restringe o começo: preenchimento de código, saída estruturada, problemas com muitas restrições, etc. O Google ajustou uma versão para resolver Sudoku como demonstração. O modelo base acertou aproximadamente 0% dos quebra-cabeças.
A versão ajustada atingiu 80%.
A difusão de texto tem sido um projeto de pesquisa há anos. MDLM, SEDD, LLaDA, Dream — modelos acadêmicos que provaram que a abordagem funcionava em pequena escala e, em sua maioria, permaneceram como provas de conceito. A Inception Labs lançou o Mercury 2 em fevereiro de 2026 como o primeiro modelo comercial de raciocínio por difusão, alegando velocidades cinco vezes mais rápidas que os concorrentes otimizados para velocidade.
Mas nenhum deles era de pesos abertos, e nenhum veio com suporte desde o primeiro dia no vLLM, Hugging Face Transformers e Unsloth. O DiffusionGemma é o primeiro grande lançamento aberto de um laboratório de primeira linha.
Há também uma ironia histórica digna de nota. Os geradores de imagem começaram como modelos de difusão (daí o nome Stable Diffusion) e agora estão caminhando para arquiteturas autorregressivas para melhor qualidade. Os modelos de linguagem começaram como autorregressivos e agora estão experimentando a difusão para velocidade.
Executar o DiffusionGemma de forma eficiente requer um "drafter" — um módulo leve que propõe blocos de tokens em paralelo, que o modelo principal então verifica em uma única passagem direta. Isso é chamado de decodificação especulativa. O DFlash é uma estrutura publicada no início de 2026 que usa um pequeno modelo de difusão como drafter, permitindo um aumento de velocidade superior a 6x em algumas tarefas. É o motor que torna essa classe de modelo prática.
O problema: o DiffusionGemma precisa de um drafter específico para ser executado localmente via MLX — o framework de aprendizado de máquina da Apple para Apple Silicon. Esse módulo não existe em nenhuma versão pública do mlx-lm, em nenhum pull request aberto, ou no ambiente de execução incluído no LM Studio.
Tentamos executar o DiffusionGemma com Hermes via NVIDIA NIM. O modelo carregou, mas então: "agent init failed: Model google/diffusiongemma-26b-a4b-it has a context window of 8,192 tokens, which is below the minimum 64,000 required by Hermes Agent." (inicialização do agente falhou: O modelo google/diffusiongemma-26b-a4b-it tem uma janela de contexto de 8.192 tokens, o que está abaixo do mínimo de 64.000 exigido pelo Hermes Agent.)
Para ser preciso: a janela de contexto real do DiffusionGemma é de 256K tokens. O valor de 8.192 foi um erro da Nvidia por padrão, não um limite arquitetônico do modelo.
Na prática, configurá-lo corretamente para uso com agentes exige um trabalho manual que a maioria dos usuários comuns ainda não descobriu, e o Hermes Agent simplesmente não inicializará sem ele. A velocidade paralela não significa nada se o agente não conseguir inicializar.
Espera-se que, nos próximos dias, a comunidade produza melhores recursos para executar esses modelos.
Desenvolvedores com hardware NVIDIA RTX 4090 ou 5090 que constroem ferramentas em tempo real — editores inline, preenchimento automático, preenchimento de código, geração estruturada. Esse é o alvo. Como a Decrypt cobriu em maio, o Google tem se esforçado continuamente para tornar a inferência local mais rápida sem novo hardware.
Para pesquisadores, a geração bidirecional abre um território que os modelos autorregressivos simplesmente não conseguem alcançar — sequências de proteínas, gráficos matemáticos, qualquer coisa onde a posição N depende da posição N+50. Isso não é uma coisa pequena.
O Google lançou o Gemma 4 sob licença Apache 2.0 em abril, e o DiffusionGemma continua essa estratégia. Já existe um rascunho de PR para llama.cpp aberto a partir de hoje. Quando o conjunto de ferramentas se atualizar, isso alcançará um público muito mais amplo.
Em uma máquina com uma GPU discreta capaz, 1.000 tokens por segundo é uma realidade.