
Google wprowadziło dziś DiffusionGemma, otwarty model AI, który generuje tekst w sposób, w jaki generatory obrazów tworzą obrazy: zaczyna od szumu, a następnie dopracowuje, aż obraz nabierze sensu. Osiąga 1000 tokenów na sekundę na NVIDIA H100. (Tokeny to podstawowa jednostka informacji, którą przetwarza model AI.) Oznacza to, że jest cztery razy szybszy niż zwykła Gemma. Jest również darmowy, na licencji Apache 2.0, z wagami dostępnymi na Hugging Face.
Haczykiem, jak zawsze, są drobne szczegóły. Według ogłoszenia Google, model osiąga "ponad 700 tokenów na sekundę na NVIDIA GeForce RTX 5090". Ustępuje również standardowej Gemmie 4 pod względem jakości generowania.
Google sam to przyznaje. To model nastawiony na szybkość, a nie na poprawę jakości.
Każdy używany przez Ciebie LLM to maszyna do pisania. Jeden token na raz, gdzie każde słowo zależy od poprzedniego. Tak działają architektury autoregresywne.
DiffusionGemma działa inaczej. Zamiast generować tokeny sekwencyjnie, zaczyna od dopracowanych bloków zniekształconego tekstu równolegle. Zgodnie z przewodnikiem dla programistów Google, model "zaczyna od płótna losowych tokenów zastępczych" i iteracyjnie blokuje pewne tokeny, aż cały blok się uformuje. Dwieście pięćdziesiąt sześć tokenów na jedno przejście do przodu. GPU jest cały czas zajęte.
Efektem ubocznym jest dwukierunkowa atencja — każdy token może "widzieć" każdy inny token podczas generowania, co jest niemożliwe w modelach autoregresywnych (nie mogą one widzieć przyszłości, tego, co zostanie zakodowane). To sprawia, że model jest niezwykle skuteczny w zadaniach, gdzie koniec odpowiedzi ogranicza początek: uzupełnianie kodu, generowanie ustrukturyzowane, problemy z wieloma ograniczeniami itp. Google dostroiło wersję do rozwiązywania Sudoku jako demo. Model bazowy rozwiązywał około 0% łamigłówek poprawnie.
Wersja dostrojona osiągnęła 80%.
Dyfuzja tekstu od lat jest projektem badawczym. MDLM, SEDD, LLaDA, Dream — to modele akademickie, które udowodniły skuteczność podejścia na małą skalę i pozostały głównie dowodami koncepcji. Inception Labs w lutym 2026 roku wprowadziło Mercury 2 jako pierwszy komercyjny model rozumowania dyfuzyjnego, twierdząc, że osiąga pięciokrotnie większe prędkości niż konkurenci zoptymalizowani pod kątem szybkości.
Żaden z nich nie był jednak otwarty, ani nie oferował wsparcia w vLLM, Hugging Face Transformers czy Unsloth od dnia premiery. DiffusionGemma to pierwsze duże otwarte wydanie z laboratorium z najwyższej półki.
Warto też zauważyć historyczną ironię. Generatory obrazów zaczęły jako modele dyfuzyjne (stąd nazwa Stable Diffusion) i teraz przechodzą na architektury autoregresywne dla lepszej jakości. Modele językowe zaczęły jako autoregresywne i teraz eksperymentują z dyfuzją dla szybkości.
Aby efektywnie uruchomić DiffusionGemma, potrzebny jest moduł szkicujący — lekki moduł, który równolegle proponuje bloki tokenów, które następnie są weryfikowane przez główny model w jednym przejściu do przodu. Nazywa się to dekodowaniem spekulatywnym. DFlash to framework opublikowany na początku 2026 roku, który wykorzystuje mały model dyfuzyjny jako moduł szkicujący, umożliwiając ponad 6-krotne przyspieszenie w niektórych zadaniach. Jest to silnik, który sprawia, że ta klasa modeli jest praktyczna.
Problem: DiffusionGemma potrzebuje specyficznego modułu szkicującego do lokalnego uruchomienia przez MLX — framework uczenia maszynowego Apple dla Apple Silicon. Ten moduł nie istnieje w żadnej publicznej wersji mlx-lm, w żadnym otwartym pull request ani w środowisku uruchomieniowym dołączonym do LM Studio.
Próbowaliśmy uruchomić DiffusionGemma z Hermesem za pośrednictwem NVIDIA NIM. Model załadował się, ale potem: "inicjalizacja agenta nie powiodła się: Model google/diffusiongemma-26b-a4b-it ma okno kontekstowe 8 192 tokenów, co jest poniżej minimum 64 000 wymaganego przez Hermes Agent".
Precyzując: rzeczywiste okno kontekstowe DiffusionGemma to 256K tokenów. Liczba 8 192 wynikała z domyślnej konfiguracji Nvidii, a nie z ograniczeń architektonicznych modelu.
W praktyce, poprawne skonfigurowanie go do użytku agentowego wymaga ręcznej pracy, której większość zwykłych użytkowników jeszcze nie opanowała, a Hermes Agent po prostu nie zainicjuje się bez tego. Równoległa szybkość nie ma znaczenia, jeśli agent nie może się uruchomić.
Mamy nadzieję, że w ciągu najbliższych kilku dni społeczność stworzy lepsze zasoby do uruchamiania tych modeli.
Dla deweloperów z kartami NVIDIA RTX 4090 lub 5090, tworzących narzędzia czasu rzeczywistego — edytory liniowe, autouzupełnianie, uzupełnianie kodu, generowanie ustrukturyzowane. To jest ich cel. Jak Decrypt informował w maju, Google konsekwentnie dąży do przyspieszenia lokalnego wnioskowania bez konieczności użycia nowego sprzętu.
Dla badaczy, dwukierunkowe generowanie otwiera obszary, do których modele autoregresywne po prostu nie mogą dotrzeć — sekwencje białkowe, grafy matematyczne, cokolwiek, gdzie pozycja N zależy od pozycji N+50. To nie jest drobiazg.
Google uruchomiło Gemma 4 na licencji Apache 2.0 w kwietniu, a DiffusionGemma kontynuuje tę strategię. Już dziś istnieje otwarty projekt PR dla llama.cpp. Gdy zestaw narzędzi nadrobi zaległości, dotrze to do znacznie szerszej publiczności.
Na maszynie z wydajną dedykowaną kartą graficzną, 1000 tokenów na sekundę to realna sprawa.