BerandaPusat Berita LBank
DiffusionGemma AI Google Mencapai 1.000 Token Per Detik—Dan Gratis
google-new-open-model-generates-text-diffusiongemma
DiffusionGemma AI Google Mencapai 1.000 Token Per Detik—Dan Gratis
DiffusionGemma mencapai 1.000 token per detik dengan meniadakan sepenuhnya generasi kata per kata. Namun, model ini belum dapat berjalan di sebagian besar perangkat.
2026-06-10 Sumber:decrypt.co

Singkatnya

  • Google merilis DiffusionGemma, model open-weight gratis yang menghasilkan seluruh blok 256 token secara bersamaan melalui difusi teks—mencapai lebih dari 1.000 token per detik pada NVIDIA H100, empat kali lebih cepat dari model autoregresif standar.
  • Modul drafter kustom yang dibutuhkan DiffusionGemma untuk inferensi lokal belum ada dalam runtime publik mana pun—tidak di mlx-lm, tidak di LM Studio—membuatnya secara efektif tidak dapat dijalankan di sebagian besar pengaturan konsumen saat ini.
  • Di NVIDIA NIM, model tersebut tiba dalam konfigurasi awal dengan konteks 8.192 token—di bawah ambang batas 64.000 token yang dibutuhkan oleh framework agen seperti Hermes Agent—yang berarti alur kerja otonom tidak akan berjalan tanpa konfigurasi ulang manual.

Google meluncurkan DiffusionGemma hari ini, sebuah model AI terbuka yang menghasilkan teks seperti cara generator gambar membuat gambar: dimulai dengan noise, diperbaiki hingga masuk akal. Model ini mencapai 1.000 token per detik pada NVIDIA H100. (Token adalah unit dasar informasi yang ditangani model AI.) Itu berarti model ini empat kali lebih cepat dari Gemma biasa. Model ini juga gratis, berlisensi Apache 2.0, dengan bobot tersedia di Hugging Face.

Namun, seperti biasa, ada hal yang perlu diperhatikan dalam cetakan kecil. Berdasarkan pengumuman Google, model ini mencapai "700+ token per detik pada NVIDIA GeForce RTX 5090." Kualitas keluarannya juga tertinggal dari Gemma 4 standar.

Google sendiri yang mengatakannya. Ini adalah model kecepatan, bukan peningkatan kualitas.

Apa fungsinya ini sebenarnya

Setiap LLM yang pernah Anda gunakan adalah mesin tik. Satu token pada satu waktu dengan setiap kata bergantung pada kata sebelumnya. Begitulah cara kerja arsitektur autoregresif.

DiffusionGemma tidak bekerja demikian. Alih-alih menghasilkan token secara berurutan, ia memulai dengan potongan-potongan teks acak yang disempurnakan secara paralel. Berdasarkan panduan pengembang Google, ia "dimulai dengan kanvas token placeholder acak" dan secara iteratif mengunci token yang pasti hingga seluruh blok menjadi jelas. Dua ratus lima puluh enam token per forward pass. GPU tetap sibuk.

Efek sampingnya adalah perhatian bidireksional—setiap token dapat melihat setiap token lain saat dihasilkan, yang tidak mungkin terjadi pada model autoregresif (mereka tidak dapat melihat masa depan, apa yang akan dikodekan). Hal ini membuatnya sangat baik dalam tugas-tugas di mana akhir jawaban membatasi awal: pengisian kode, output terstruktur, masalah yang sangat terikat batasan, dll. Google menyetel versi untuk memecahkan Sudoku sebagai demo. Model dasarnya hanya berhasil menyelesaikan sekitar 0% teka-teki dengan benar.

Versi yang disetel ulang mencapai 80%.

Difusi teks telah menjadi proyek penelitian selama bertahun-tahun. MDLM, SEDD, LLaDA, Dream—model akademis yang membuktikan pendekatan ini berhasil pada skala kecil dan sebagian besar tetap menjadi bukti konsep. Inception Labs merilis Mercury 2 pada Februari 2026 sebagai model penalaran difusi komersial pertama, mengklaim kecepatan lima kali lebih cepat daripada pesaing yang dioptimalkan kecepatan.

Namun, tidak ada satu pun dari itu yang merupakan open-weight, dan tidak ada yang datang dengan dukungan hari-pertama di vLLM, Hugging Face Transformers, dan Unsloth. DiffusionGemma adalah rilis terbuka besar pertama dari laboratorium tingkat atas.

Ada juga ironi historis yang patut dicatat. Generator gambar dimulai sebagai model difusi (dari situlah nama Stable Diffusion berasal) dan sekarang bergerak menuju arsitektur autoregresif untuk kualitas yang lebih baik. Model bahasa dimulai sebagai autoregresif dan sekarang bereksperimen dengan difusi untuk kecepatan.

Mengapa sulit dijalankan… untuk saat ini

Menjalankan DiffusionGemma secara efisien membutuhkan drafter—modul ringan yang mengusulkan blok token secara paralel, yang kemudian diverifikasi oleh model utama dalam satu forward pass. Ini disebut speculative decoding. DFlash adalah framework yang diterbitkan pada awal tahun 2026 yang menggunakan model difusi kecil sebagai drafter, memungkinkan percepatan lebih dari 6x pada beberapa tugas. Ini adalah mesin yang membuat kelas model ini praktis.

Masalahnya: DiffusionGemma membutuhkan drafter khusus untuk berjalan secara lokal melalui MLX—framework pembelajaran mesin Apple untuk Apple Silicon. Modul tersebut tidak ada dalam versi publik mlx-lm mana pun, dalam pull request terbuka mana pun, atau dalam runtime bawaan LM Studio.

Kami mencoba menjalankan DiffusionGemma dengan Hermes melalui NVIDIA NIM. Model berhasil dimuat, tetapi kemudian: "inisialisasi agen gagal: Model google/diffusiongemma-26b-a4b-it memiliki jendela konteks 8.192 token, yang berada di bawah minimum 64.000 yang disyaratkan oleh Hermes Agent."

Lebih tepatnya: jendela konteks DiffusionGemma yang sebenarnya adalah 256K token. Angka 8.192 adalah kesalahan Nvidia secara default, bukan batas arsitektural model.

Pada praktiknya, mengkonfigurasinya dengan benar untuk penggunaan agen membutuhkan pekerjaan manual yang belum dipahami oleh sebagian besar pengguna biasa, dan Hermes Agent tidak akan menginisialisasi tanpanya. Kecepatan paralel tidak berarti apa-apa jika agen tidak dapat booting.

Semoga, dalam beberapa hari ke depan, komunitas akan menghasilkan sumber daya yang lebih baik untuk menjalankan model-model ini.

Untuk siapa ini sebenarnya

Para pengembang dengan perangkat keras NVIDIA RTX 4090 atau 5090 yang membangun alat real-time—editor inline, autocomplete, pengisian kode, generasi terstruktur. Itulah targetnya. Seperti yang diliput Decrypt pada bulan Mei, Google terus-menerus berupaya membuat inferensi lokal lebih cepat tanpa perangkat keras baru.

Bagi para peneliti, generasi bidireksional membuka wilayah yang tidak dapat dijangkau oleh model autoregresif—urutan protein, grafik matematika, apa pun di mana posisi N bergantung pada posisi N+50. Itu bukan hal kecil.

Google meluncurkan Gemma 4 di bawah Apache 2.0 pada bulan April, dan DiffusionGemma melanjutkan strategi tersebut. Sudah ada draf PR llama.cpp yang dibuka hari ini. Ketika toolchain menyusul, ini akan menjangkau audiens yang jauh lebih luas.

Pada mesin dengan GPU diskrit yang mumpuni, 1.000 token per detik adalah kenyataan.