

🚀 Google DeepMind Ra Mắt DiffusionGemma 26B: Model AI Tạo Văn Bản Nhanh Hơn 4 Lần Nhờ Khuếch Tán
Bạn có tưởng tượng được một AI tạo ra hơn 1,000 từ mỗi giây không? Google DeepMind vừa làm điều đó với DiffusionGemma 26B, và cách nó hoạt động hoàn toàn khác với mọi thứ bạn từng biết.
🧠 Kiến Trúc Hoàn Toàn Khác Biệt
Hầu hết các model AI như GPT hay Claude đều tạo văn bản theo kiểu autoregressive: sinh từng token một, theo thứ tự từ trái sang phải. DiffusionGemma đi theo hướng hoàn toàn khác, dùng phương pháp discrete diffusion hay còn gọi là khuếch tán ngược. Thay vì viết từng chữ một, model bắt đầu từ một "canvas" đầy token nhiễu loạn, rồi song song khử nhiễu 256 token mỗi lượt cho đến khi văn bản mạch lạc xuất hiện.
⚡ Tốc Độ Vượt Trội Trong Thực Tế
Kết quả benchmark khá ấn tượng:
- Trên NVIDIA H100: hơn 1,000 token/giây
- Trên RTX 5090: hơn 700 token/giây
- Nhanh gấp 4 lần so với model autoregressive cùng kích thước
🏗️ Kiến Trúc Mixture of Experts Thông Minh
Model có 26 tỷ tham số tổng, nhưng nhờ kiến trúc Mixture of Experts (MoE), mỗi lần chạy chỉ kích hoạt 3.8 tỷ tham số. Thông số kỹ thuật đáng chú ý:
- Context window: 256,000 token
- Đa phương thức: hỗ trợ text, ảnh và video
- Đa ngôn ngữ: hơn 140 ngôn ngữ, bao gồm tiếng Việt
- Giấy phép Apache 2.0: miễn phí hoàn toàn, có thể chạy local
⚠️ Điểm Cần Lưu Ý Trước Khi Dùng
Không có gì hoàn hảo. DiffusionGemma hiện có chất lượng output thấp hơn Gemma 4 tiêu chuẩn. Đây là sự đánh đổi giữa tốc độ và độ chính xác. Model này phù hợp nhất cho các tác vụ ưu tiên tốc độ phản hồi hơn độ sâu về nội dung.
Bạn nghĩ công nghệ diffusion cho ngôn ngữ sẽ dần thay thế autoregressive trong tương lai, hay hai hướng này sẽ cùng tồn tại?
#VibeAICoder #GoogleDeepMind #DiffusionGemma #AINews #OpenSourceAI


