
Google hôm nay đã ra mắt DiffusionGemma, một mô hình AI mã nguồn mở tạo văn bản theo cách các trình tạo ảnh tạo hình ảnh: bắt đầu bằng nhiễu, tinh chỉnh cho đến khi có ý nghĩa. Nó đạt 1.000 token mỗi giây trên NVIDIA H100. (Token là đơn vị thông tin cơ bản mà một mô hình AI xử lý.) Điều đó có nghĩa là nó nhanh hơn bốn lần so với Gemma thông thường. Nó cũng miễn phí, theo giấy phép Apache 2.0, với các trọng số có sẵn trên Hugging Face.
Tuy nhiên, vấn đề nằm ở những chi tiết nhỏ. Theo thông báo của Google, mô hình đạt "hơn 700 token mỗi giây trên NVIDIA GeForce RTX 5090". Nó cũng kém chất lượng đầu ra hơn so với Gemma 4 tiêu chuẩn.
Chính Google cũng thừa nhận điều này. Đây là một mô hình hướng đến tốc độ, không phải là một cải tiến về chất lượng.
Mỗi LLM bạn từng sử dụng giống như một chiếc máy đánh chữ. Mỗi token được tạo ra một cách tuần tự, với mỗi từ phụ thuộc vào từ trước đó. Đó là cách các kiến trúc tự hồi quy hoạt động.
DiffusionGemma không làm như vậy. Thay vì tạo token theo trình tự, nó bắt đầu với các khối văn bản lộn xộn đã được tinh chỉnh song song. Theo hướng dẫn dành cho nhà phát triển của Google, nó "bắt đầu với một 'khung vẽ' gồm các token giữ chỗ ngẫu nhiên" và lặp đi lặp lại khóa các token tự tin cho đến khi toàn bộ khối trở nên rõ ràng. Hai trăm năm mươi sáu token mỗi lượt xử lý (forward pass). GPU luôn hoạt động hết công suất.
Hiệu ứng phụ là khả năng chú ý hai chiều – mỗi token có thể thấy mọi token khác trong quá trình tạo, điều này không thể xảy ra trong các mô hình tự hồi quy (chúng không thể nhìn thấy tương lai, những gì sẽ được mã hóa). Điều đó làm cho nó đặc biệt tốt trong các tác vụ mà phần cuối của câu trả lời ràng buộc phần đầu: điền mã, đầu ra có cấu trúc, các bài toán nặng về ràng buộc, v.v. Google đã tinh chỉnh một phiên bản để giải Sudoku làm minh họa. Mô hình cơ sở giải đúng khoảng 0% số câu đố.
Phiên bản đã tinh chỉnh đạt 80%.
Khuếch tán văn bản đã là một dự án nghiên cứu trong nhiều năm. MDLM, SEDD, LLaDA, Dream – các mô hình học thuật đã chứng minh phương pháp này hoạt động ở quy mô nhỏ và chủ yếu vẫn là bằng chứng khái niệm. Inception Labs đã ra mắt Mercury 2 vào tháng 2 năm 2026 dưới dạng mô hình suy luận khuếch tán thương mại đầu tiên, tuyên bố tốc độ nhanh hơn năm lần so với các đối thủ cạnh tranh được tối ưu hóa tốc độ.
Nhưng không có mô hình nào trong số đó là mã nguồn mở, và không có mô hình nào đi kèm với hỗ trợ ngay lập tức trong vLLM, Hugging Face Transformers và Unsloth. DiffusionGemma là bản phát hành mã nguồn mở lớn đầu tiên từ một phòng thí nghiệm hàng đầu.
Cũng có một sự trớ trêu đáng chú ý trong lịch sử. Các trình tạo hình ảnh bắt đầu là mô hình khuếch tán (do đó có tên Stable Diffusion) và hiện đang chuyển sang các kiến trúc tự hồi quy để có chất lượng tốt hơn. Các mô hình ngôn ngữ bắt đầu là tự hồi quy và hiện đang thử nghiệm với khuếch tán để tăng tốc độ.
Để chạy DiffusionGemma hiệu quả đòi hỏi một "drafter" – một mô-đun nhẹ đề xuất các khối token song song, sau đó mô hình chính sẽ xác minh trong một lần xử lý. Đây được gọi là giải mã suy đoán (speculative decoding). DFlash là một khung đã được công bố vào đầu năm 2026 sử dụng một mô hình khuếch tán nhỏ làm drafter, cho phép tăng tốc độ hơn 6 lần trên một số tác vụ. Đây là công cụ giúp loại mô hình này trở nên khả thi.
Vấn đề là: DiffusionGemma cần một drafter cụ thể để chạy cục bộ thông qua MLX – khung máy học của Apple dành cho Apple Silicon. Mô-đun đó hiện không tồn tại trong bất kỳ phiên bản công khai nào của mlx-lm, trong bất kỳ yêu cầu kéo (pull request) mở nào, hoặc trong môi trường chạy tích hợp của LM Studio.
Chúng tôi đã thử chạy DiffusionGemma với Hermes thông qua NVIDIA NIM. Mô hình đã tải, nhưng sau đó: "agent init failed: Model google/diffusiongemma-26b-a4b-it có cửa sổ ngữ cảnh là 8.192 token, thấp hơn mức tối thiểu 64.000 token được yêu cầu bởi Hermes Agent."
Chính xác hơn: Cửa sổ ngữ cảnh thực tế của DiffusionGemma là 256K token. Con số 8.192 là do Nvidia đã làm rối mọi thứ theo mặc định, chứ không phải giới hạn kiến trúc của mô hình.
Trên thực tế, để cấu hình đúng cách cho việc sử dụng tác nhân đòi hỏi công việc thủ công mà hầu hết người dùng hàng ngày chưa tìm ra, và Hermes Agent đơn giản sẽ không khởi tạo nếu thiếu nó. Tốc độ song song không có ý nghĩa gì nếu tác nhân không thể khởi động.
Hy vọng rằng, trong vài ngày tới, cộng đồng sẽ tạo ra các tài nguyên tốt hơn để chạy các mô hình này.
Các nhà phát triển sở hữu phần cứng NVIDIA RTX 4090 hoặc 5090 đang xây dựng các công cụ thời gian thực—trình chỉnh sửa trực tuyến, tự động hoàn thành, điền mã, tạo cấu trúc. Đó là đối tượng mục tiêu. Như Decrypt đã đưa tin vào tháng 5, Google đã liên tục thúc đẩy để tăng tốc suy luận cục bộ mà không cần phần cứng mới.
Đối với các nhà nghiên cứu, việc tạo hai chiều mở ra một lĩnh vực mà các mô hình tự hồi quy đơn giản không thể đạt tới—trình tự protein, đồ thị toán học, bất cứ thứ gì mà vị trí N phụ thuộc vào vị trí N+50. Đó không phải là một điều nhỏ.
Google đã ra mắt Gemma 4 theo giấy phép Apache 2.0 vào tháng 4, và DiffusionGemma tiếp tục chiến lược đó. Hiện đã có một yêu cầu kéo (PR) llama.cpp được mở ngay hôm nay. Khi bộ công cụ bắt kịp, mô hình này sẽ tiếp cận được một lượng khán giả rộng hơn nhiều.
Trên một cỗ máy có GPU rời mạnh mẽ, 1.000 token mỗi giây là điều có thật.