Agregação de Tags de Notícias Cripto e Conteúdo Temático

google-new-open-model-generates-text-diffusiongemma

A IA DiffusionGemma do Google Atinge 1.000 Tokens Por Segundo—E É Gratuita

DiffusionGemma atinge 1.000 tokens por segundo ao abandonar completamente a geração palavra por palavra. Contudo, ele ainda não funciona na maioria dos computadores das pessoas.

2026-06-10 Fonte:decrypt.co

Em resumo

Google lançou DiffusionGemma, um modelo de pesos abertos gratuito que gera blocos inteiros de 256 tokens simultaneamente via difusão de texto – atingindo mais de 1.000 tokens por segundo em uma NVIDIA H100, quatro vezes mais rápido que os modelos autorregressivos padrão.
O módulo drafter personalizado que o DiffusionGemma precisa para inferência local ainda não existe em nenhum ambiente de execução público – nem no mlx-lm, nem no LM Studio – tornando-o efetivamente impossível de executar na maioria das configurações de consumo hoje.
Na NVIDIA NIM, o modelo veio pré-configurado com 8.192 tokens de contexto – abaixo do limite de 64.000 tokens exigido por estruturas de agente como o Hermes Agent – o que significa que fluxos de trabalho autônomos não funcionarão sem reconfiguração manual.

O Google lançou hoje o DiffusionGemma, um modelo de IA aberto que gera texto da mesma forma que os geradores de imagem criam figuras: começa com ruído, refina até fazer sentido. Ele atinge 1.000 tokens por segundo em uma NVIDIA H100. (Tokens são a unidade básica de informação que um modelo de IA processa.) Isso significa que é quatro vezes mais rápido que o Gemma regular. É também gratuito, Apache 2.0, com os pesos disponíveis no Hugging Face.

A pegadinha, como sempre, está nas letras miúdas. Segundo o anúncio do Google, o modelo atinge "mais de 700 tokens por segundo na NVIDIA GeForce RTX 5090". Ele também fica atrás do Gemma 4 padrão em qualidade de saída.

O próprio Google o diz. Este é um modelo de velocidade, não uma melhoria de qualidade.

O que isso realmente faz

Todo LLM que você já usou é uma máquina de escrever. Um token de cada vez, com cada palavra dependendo da anterior. É assim que as arquiteturas autorregressivas funcionam.

O DiffusionGemma não faz isso. Em vez de gerar tokens sequencialmente, ele começa com blocos refinados de texto embaralhado em paralelo. De acordo com o guia do desenvolvedor do Google, ele "começa com uma tela de tokens de preenchimento aleatórios" e bloqueia iterativamente tokens confiantes até que todo o bloco se foque. Duzentos e cinquenta e seis tokens por passagem direta. A GPU permanece ocupada.

O efeito colateral é a atenção bidirecional — cada token pode "ver" todos os outros tokens enquanto está sendo gerado, o que é impossível em modelos autorregressivos (eles não podem ver o futuro, o que será codificado). Isso o torna excepcionalmente bom em tarefas onde o fim da resposta restringe o começo: preenchimento de código, saída estruturada, problemas com muitas restrições, etc. O Google ajustou uma versão para resolver Sudoku como demonstração. O modelo base acertou aproximadamente 0% dos quebra-cabeças.

A versão ajustada atingiu 80%.

A difusão de texto tem sido um projeto de pesquisa há anos. MDLM, SEDD, LLaDA, Dream — modelos acadêmicos que provaram que a abordagem funcionava em pequena escala e, em sua maioria, permaneceram como provas de conceito. A Inception Labs lançou o Mercury 2 em fevereiro de 2026 como o primeiro modelo comercial de raciocínio por difusão, alegando velocidades cinco vezes mais rápidas que os concorrentes otimizados para velocidade.

Mas nenhum deles era de pesos abertos, e nenhum veio com suporte desde o primeiro dia no vLLM, Hugging Face Transformers e Unsloth. O DiffusionGemma é o primeiro grande lançamento aberto de um laboratório de primeira linha.

Há também uma ironia histórica digna de nota. Os geradores de imagem começaram como modelos de difusão (daí o nome Stable Diffusion) e agora estão caminhando para arquiteturas autorregressivas para melhor qualidade. Os modelos de linguagem começaram como autorregressivos e agora estão experimentando a difusão para velocidade.

Por que é difícil de executar… por enquanto

Executar o DiffusionGemma de forma eficiente requer um "drafter" — um módulo leve que propõe blocos de tokens em paralelo, que o modelo principal então verifica em uma única passagem direta. Isso é chamado de decodificação especulativa. O DFlash é uma estrutura publicada no início de 2026 que usa um pequeno modelo de difusão como drafter, permitindo um aumento de velocidade superior a 6x em algumas tarefas. É o motor que torna essa classe de modelo prática.

O problema: o DiffusionGemma precisa de um drafter específico para ser executado localmente via MLX — o framework de aprendizado de máquina da Apple para Apple Silicon. Esse módulo não existe em nenhuma versão pública do mlx-lm, em nenhum pull request aberto, ou no ambiente de execução incluído no LM Studio.

Tentamos executar o DiffusionGemma com Hermes via NVIDIA NIM. O modelo carregou, mas então: "agent init failed: Model google/diffusiongemma-26b-a4b-it has a context window of 8,192 tokens, which is below the minimum 64,000 required by Hermes Agent." (inicialização do agente falhou: O modelo google/diffusiongemma-26b-a4b-it tem uma janela de contexto de 8.192 tokens, o que está abaixo do mínimo de 64.000 exigido pelo Hermes Agent.)

Para ser preciso: a janela de contexto real do DiffusionGemma é de 256K tokens. O valor de 8.192 foi um erro da Nvidia por padrão, não um limite arquitetônico do modelo.

Na prática, configurá-lo corretamente para uso com agentes exige um trabalho manual que a maioria dos usuários comuns ainda não descobriu, e o Hermes Agent simplesmente não inicializará sem ele. A velocidade paralela não significa nada se o agente não conseguir inicializar.

Espera-se que, nos próximos dias, a comunidade produza melhores recursos para executar esses modelos.

Para quem isso realmente é

Desenvolvedores com hardware NVIDIA RTX 4090 ou 5090 que constroem ferramentas em tempo real — editores inline, preenchimento automático, preenchimento de código, geração estruturada. Esse é o alvo. Como a Decrypt cobriu em maio, o Google tem se esforçado continuamente para tornar a inferência local mais rápida sem novo hardware.

Para pesquisadores, a geração bidirecional abre um território que os modelos autorregressivos simplesmente não conseguem alcançar — sequências de proteínas, gráficos matemáticos, qualquer coisa onde a posição N depende da posição N+50. Isso não é uma coisa pequena.

O Google lançou o Gemma 4 sob licença Apache 2.0 em abril, e o DiffusionGemma continua essa estratégia. Já existe um rascunho de PR para llama.cpp aberto a partir de hoje. Quando o conjunto de ferramentas se atualizar, isso alcançará um público muito mais amplo.

Em uma máquina com uma GPU discreta capaz, 1.000 tokens por segundo é uma realidade.