🚀 Google DeepMind Ra Mắt DiffusionGemma 26B: Model AI Tạo Văn Bản Nhanh Hơn 4 Lần Nhờ Khuếch Tán

12 tháng 6, 2026

Bạn có tưởng tượng được một AI tạo ra hơn 1,000 từ mỗi giây không? Google DeepMind vừa làm điều đó với DiffusionGemma 26B, và cách nó hoạt động hoàn toàn khác với mọi thứ bạn từng biết.

🧠 Kiến Trúc Hoàn Toàn Khác Biệt

Hầu hết các model AI như GPT hay Claude đều tạo văn bản theo kiểu autoregressive: sinh từng token một, theo thứ tự từ trái sang phải. DiffusionGemma đi theo hướng hoàn toàn khác, dùng phương pháp discrete diffusion hay còn gọi là khuếch tán ngược. Thay vì viết từng chữ một, model bắt đầu từ một "canvas" đầy token nhiễu loạn, rồi song song khử nhiễu 256 token mỗi lượt cho đến khi văn bản mạch lạc xuất hiện.

⚡ Tốc Độ Vượt Trội Trong Thực Tế

Kết quả benchmark khá ấn tượng:

Trên NVIDIA H100: hơn 1,000 token/giây
Trên RTX 5090: hơn 700 token/giây
Nhanh gấp 4 lần so với model autoregressive cùng kích thước

🏗️ Kiến Trúc Mixture of Experts Thông Minh

Model có 26 tỷ tham số tổng, nhưng nhờ kiến trúc Mixture of Experts (MoE), mỗi lần chạy chỉ kích hoạt 3.8 tỷ tham số. Thông số kỹ thuật đáng chú ý:

Context window: 256,000 token
Đa phương thức: hỗ trợ text, ảnh và video
Đa ngôn ngữ: hơn 140 ngôn ngữ, bao gồm tiếng Việt
Giấy phép Apache 2.0: miễn phí hoàn toàn, có thể chạy local

⚠️ Điểm Cần Lưu Ý Trước Khi Dùng

Không có gì hoàn hảo. DiffusionGemma hiện có chất lượng output thấp hơn Gemma 4 tiêu chuẩn. Đây là sự đánh đổi giữa tốc độ và độ chính xác. Model này phù hợp nhất cho các tác vụ ưu tiên tốc độ phản hồi hơn độ sâu về nội dung.

Bạn nghĩ công nghệ diffusion cho ngôn ngữ sẽ dần thay thế autoregressive trong tương lai, hay hai hướng này sẽ cùng tồn tại?

#VibeAICoder #GoogleDeepMind #DiffusionGemma #AINews #OpenSourceAI

🚀 Google DeepMind Ra Mắt DiffusionGemma 26B: Model AI Tạo Văn Bản Nhanh Hơn 4 Lần Nhờ Khuếch Tán

🧠 Kiến Trúc Hoàn Toàn Khác Biệt

⚡ Tốc Độ Vượt Trội Trong Thực Tế

🏗️ Kiến Trúc Mixture of Experts Thông Minh

⚠️ Điểm Cần Lưu Ý Trước Khi Dùng

Bài viết liên quan

🚨 Meta Muse Spark Ra Mắt: Llama 5 Đã Chết, Open Source Bị Bỏ Rơi

Decoupled DiLoCo: Google DeepMind Mở Ra Kỷ Nguyên Training AI Phân Tán Đa Data Center, Nhanh Hơn 20 Lần

🚀 Llama 5 ra mắt với 600 tỷ tham số, Meta tuyên chiến với GPT-5 và Gemini