Agregacja tagów wiadomości krypto i treści tematycznych

google-new-open-model-generates-text-diffusiongemma

AI DiffusionGemma od Google osiąga 1000 tokenów na sekundę — i jest bezpłatny

DiffusionGemma osiąga 1000 tokenów na sekundę, całkowicie porzucając generowanie słowo po słowie. Po prostu jeszcze nie działa na większości komputerów.

2026-06-10 Źródło:decrypt.co

W skrócie

Google wydało DiffusionGemma, darmowy model o otwartych wagach, który generuje całe 256-tokenowe bloki jednocześnie poprzez dyfuzję tekstu — osiągając ponad 1000 tokenów na sekundę na NVIDIA H100, cztery razy szybciej niż standardowe modele autoregresywne.
Niestandardowy moduł szkicujący, którego DiffusionGemma potrzebuje do lokalnego wnioskowania, nie istnieje jeszcze w żadnym publicznym środowisku uruchomieniowym — ani w mlx-lm, ani w LM Studio — co sprawia, że jest praktycznie niemożliwy do uruchomienia na większości konsumenckich konfiguracji obecnie.
Na NVIDIA NIM model został wstępnie skonfigurowany z oknem kontekstowym 8 192 tokenów — poniżej progu 64 000 tokenów wymaganego przez frameworki agentowe, takie jak Hermes Agent — co oznacza, że autonomiczne przepływy pracy nie będą działać bez ręcznej rekonfiguracji.

Google wprowadziło dziś DiffusionGemma, otwarty model AI, który generuje tekst w sposób, w jaki generatory obrazów tworzą obrazy: zaczyna od szumu, a następnie dopracowuje, aż obraz nabierze sensu. Osiąga 1000 tokenów na sekundę na NVIDIA H100. (Tokeny to podstawowa jednostka informacji, którą przetwarza model AI.) Oznacza to, że jest cztery razy szybszy niż zwykła Gemma. Jest również darmowy, na licencji Apache 2.0, z wagami dostępnymi na Hugging Face.

Haczykiem, jak zawsze, są drobne szczegóły. Według ogłoszenia Google, model osiąga "ponad 700 tokenów na sekundę na NVIDIA GeForce RTX 5090". Ustępuje również standardowej Gemmie 4 pod względem jakości generowania.

Google sam to przyznaje. To model nastawiony na szybkość, a nie na poprawę jakości.

Co to faktycznie robi

Każdy używany przez Ciebie LLM to maszyna do pisania. Jeden token na raz, gdzie każde słowo zależy od poprzedniego. Tak działają architektury autoregresywne.

DiffusionGemma działa inaczej. Zamiast generować tokeny sekwencyjnie, zaczyna od dopracowanych bloków zniekształconego tekstu równolegle. Zgodnie z przewodnikiem dla programistów Google, model "zaczyna od płótna losowych tokenów zastępczych" i iteracyjnie blokuje pewne tokeny, aż cały blok się uformuje. Dwieście pięćdziesiąt sześć tokenów na jedno przejście do przodu. GPU jest cały czas zajęte.

Efektem ubocznym jest dwukierunkowa atencja — każdy token może "widzieć" każdy inny token podczas generowania, co jest niemożliwe w modelach autoregresywnych (nie mogą one widzieć przyszłości, tego, co zostanie zakodowane). To sprawia, że model jest niezwykle skuteczny w zadaniach, gdzie koniec odpowiedzi ogranicza początek: uzupełnianie kodu, generowanie ustrukturyzowane, problemy z wieloma ograniczeniami itp. Google dostroiło wersję do rozwiązywania Sudoku jako demo. Model bazowy rozwiązywał około 0% łamigłówek poprawnie.

Wersja dostrojona osiągnęła 80%.

Dyfuzja tekstu od lat jest projektem badawczym. MDLM, SEDD, LLaDA, Dream — to modele akademickie, które udowodniły skuteczność podejścia na małą skalę i pozostały głównie dowodami koncepcji. Inception Labs w lutym 2026 roku wprowadziło Mercury 2 jako pierwszy komercyjny model rozumowania dyfuzyjnego, twierdząc, że osiąga pięciokrotnie większe prędkości niż konkurenci zoptymalizowani pod kątem szybkości.

Żaden z nich nie był jednak otwarty, ani nie oferował wsparcia w vLLM, Hugging Face Transformers czy Unsloth od dnia premiery. DiffusionGemma to pierwsze duże otwarte wydanie z laboratorium z najwyższej półki.

Warto też zauważyć historyczną ironię. Generatory obrazów zaczęły jako modele dyfuzyjne (stąd nazwa Stable Diffusion) i teraz przechodzą na architektury autoregresywne dla lepszej jakości. Modele językowe zaczęły jako autoregresywne i teraz eksperymentują z dyfuzją dla szybkości.

Dlaczego uruchomienie jest trudne… na razie

Aby efektywnie uruchomić DiffusionGemma, potrzebny jest moduł szkicujący — lekki moduł, który równolegle proponuje bloki tokenów, które następnie są weryfikowane przez główny model w jednym przejściu do przodu. Nazywa się to dekodowaniem spekulatywnym. DFlash to framework opublikowany na początku 2026 roku, który wykorzystuje mały model dyfuzyjny jako moduł szkicujący, umożliwiając ponad 6-krotne przyspieszenie w niektórych zadaniach. Jest to silnik, który sprawia, że ta klasa modeli jest praktyczna.

Problem: DiffusionGemma potrzebuje specyficznego modułu szkicującego do lokalnego uruchomienia przez MLX — framework uczenia maszynowego Apple dla Apple Silicon. Ten moduł nie istnieje w żadnej publicznej wersji mlx-lm, w żadnym otwartym pull request ani w środowisku uruchomieniowym dołączonym do LM Studio.

Próbowaliśmy uruchomić DiffusionGemma z Hermesem za pośrednictwem NVIDIA NIM. Model załadował się, ale potem: "inicjalizacja agenta nie powiodła się: Model google/diffusiongemma-26b-a4b-it ma okno kontekstowe 8 192 tokenów, co jest poniżej minimum 64 000 wymaganego przez Hermes Agent".

Precyzując: rzeczywiste okno kontekstowe DiffusionGemma to 256K tokenów. Liczba 8 192 wynikała z domyślnej konfiguracji Nvidii, a nie z ograniczeń architektonicznych modelu.

W praktyce, poprawne skonfigurowanie go do użytku agentowego wymaga ręcznej pracy, której większość zwykłych użytkowników jeszcze nie opanowała, a Hermes Agent po prostu nie zainicjuje się bez tego. Równoległa szybkość nie ma znaczenia, jeśli agent nie może się uruchomić.

Mamy nadzieję, że w ciągu najbliższych kilku dni społeczność stworzy lepsze zasoby do uruchamiania tych modeli.

Dla kogo to jest właściwie

Dla deweloperów z kartami NVIDIA RTX 4090 lub 5090, tworzących narzędzia czasu rzeczywistego — edytory liniowe, autouzupełnianie, uzupełnianie kodu, generowanie ustrukturyzowane. To jest ich cel. Jak Decrypt informował w maju, Google konsekwentnie dąży do przyspieszenia lokalnego wnioskowania bez konieczności użycia nowego sprzętu.

Dla badaczy, dwukierunkowe generowanie otwiera obszary, do których modele autoregresywne po prostu nie mogą dotrzeć — sekwencje białkowe, grafy matematyczne, cokolwiek, gdzie pozycja N zależy od pozycji N+50. To nie jest drobiazg.

Google uruchomiło Gemma 4 na licencji Apache 2.0 w kwietniu, a DiffusionGemma kontynuuje tę strategię. Już dziś istnieje otwarty projekt PR dla llama.cpp. Gdy zestaw narzędzi nadrobi zaległości, dotrze to do znacznie szerszej publiczności.

Na maszynie z wydajną dedykowaną kartą graficzną, 1000 tokenów na sekundę to realna sprawa.

Najczęściej czytane

Amerykańskie spotowe ETF-y Bitcoina dodają 85,85 mln USD do dziennych wpływów, a aktywa netto osiągają 79,65 mld USD

12 godzin temu

CFTC pozywa Nowy Meksyk w najnowszej próbie dochodzenia jurysdykcji nad rynkami zakładów sportowych

17 godzin temu

Były Przewodniczący SEC Gensler odrzuca roszczenie CFTC do jurysdykcji nad rynkiem predykcyjnym zakładów sportowych

19 godzin temu

Inne artykuły

Zimbabwe poddaje firmy kryptowalutowe pod nadzór RBZ w nowych przepisach AML

11 godzin temu

Wyprzedaż Bitcoina testuje prognozę Standard Chartered na 100 tys. USD: czy przewidywania Geoffreya Kendricka są na dobrej drodze?