

Decoupled DiLoCo: Google DeepMind Mở Ra Kỷ Nguyên Training AI Phân Tán Đa Data Center, Nhanh Hơn 20 Lần
Ngày 23/04/2026, Google DeepMind công bố Decoupled DiLoCo (Distributed Low-Communication), kiến trúc training AI phân tán đột phá có thể thay đổi cách huấn luyện mô hình ngôn ngữ khổng lồ. Đây là bước ngoặt cho phép phòng thí nghiệm AI thoát khỏi sự phụ thuộc vào một siêu cụm GPU đồng nhất, mở đường cho kỷ nguyên huấn luyện model giant qua nhiều data center với hardware đa dạng và chi phí thấp hơn rõ rệt.
Tại Sao Đây Là Một Bước Ngoặt
Cho đến nay, training một mô hình hàng chục tỷ tham số vẫn đòi hỏi hàng vạn GPU hoặc TPU phải đồng bộ chính xác từng micro giây. Điều này buộc các công ty AI phải xây những trung tâm dữ liệu khổng lồ, đặt sát nhau, kết nối cáp quang băng thông cực cao và đốt rất nhiều điện. Decoupled DiLoCo lật ngược toàn bộ tư duy đó.
Hệ thống chia training run thành các "đảo" compute decoupled. Mỗi đảo là một cụm máy độc lập, học trên dữ liệu riêng. Gradient chảy bất đồng bộ giữa các đảo. Khi một đảo gặp sự cố, các đảo còn lại vẫn tiếp tục học, tạo khả năng cô lập sự cố cục bộ mà data parallel truyền thống không có.
Những Con Số Khiến Cộng Đồng Sửng Sốt
DeepMind đã train thành công model 12 tỷ tham số xuyên 4 vùng địa lý tại Hoa Kỳ, chỉ với wide-area network 2 đến 5 Gbps. Tốc độ nhanh hơn 20 lần so với synchronous truyền thống. Yêu cầu băng thông giữa data center giảm sốc từ 198 Gbps xuống 0.84 Gbps khi mở rộng qua 8 trung tâm, mức giảm gần 240 lần.
Quan trọng hơn, khi hardware failure ở mức cao, hệ thống vẫn duy trì 88 phần trăm goodput, trong khi data parallel chuẩn chỉ còn 27 phần trăm. Khi một learner unit offline rồi quay lại, hệ thống tự động tích hợp lại nó, không cần restart.
Bất Đồng Bộ Là Sức Mạnh
Vì các learner unit chạy hoàn toàn bất đồng bộ, hệ thống không yêu cầu hardware giống nhau hay clock đồng tốc. Một đảo có thể chạy TPU thế hệ mới, đảo khác dùng GPU cũ, đảo nữa đặt ở vùng có điện rẻ hơn. Tất cả vẫn cùng đóng góp vào một mô hình duy nhất. Điều này các kiến trúc trước như Pathways hay megatron sharding không làm được nếu thiếu mạng InfiniBand siêu nhanh.
Cơ chế trao đổi pseudo gradient được thiết kế để chịu delay lớn. Thay vì gửi sau mỗi step, các đảo gom lại theo chu kỳ rồi đẩy đi. Đây là lý do băng thông yêu cầu giảm hai con số.
Ý Nghĩa Toàn Cầu
Decoupled DiLoCo có thể thay đổi bài toán kinh tế của training AI. Thay vì xây campus data center khổng lồ tốn nhiều tỷ USD, các công ty có thể tận dụng nhiều site nhỏ với hardware đa dạng. Điều này hạ rào cản gia nhập cho các nhóm nhỏ và các quốc gia chưa có hạ tầng siêu tính toán tập trung. Việt Nam và Đông Nam Á có cơ hội tham gia cuộc đua mô hình lớn.
Một hệ quả khác là khả năng chịu lỗi tốt hơn. Khi một data center mất điện hay gặp thiên tai, run training không chết. Các đảo còn lại tiếp tục, và khi đảo gặp sự cố online lại, nó được kéo về cùng quỹ đạo học.
Góc Nhìn Cho Developer Việt Nam
Nếu bạn đang xây sản phẩm AI hoặc làm vibe coding, tin này có ba ý nghĩa. Thứ nhất, chi phí inference và fine tune sẽ giảm vì nhà cung cấp model nền tảng tiết kiệm được ở khâu pretraining. Thứ hai, các open source model lớn sẽ xuất hiện thường xuyên hơn vì các nhóm nhỏ có thể gom hardware từ nhiều nguồn. Thứ ba, kỹ thuật decoupled có thể áp dụng vào hệ thống serving phân tán bạn xây cho khách hàng.
Cộng đồng đang chờ Google DeepMind công bố thêm chi tiết codebase. Pathways framework có thể sẽ mở rộng để hỗ trợ Decoupled DiLoCo trong vài tháng tới. Nếu xu hướng này lan ra Meta, Microsoft và các lab Trung Quốc, chúng ta sẽ thấy làn sóng training run mới ngay trong năm 2026. Decoupled DiLoCo cho thấy đột phá lớn nhất trong AI không chỉ đến từ kiến trúc mô hình mà còn từ cách tổ chức quá trình học.
#VibeAICoder #GoogleDeepMind #DiLoCo #DistributedTraining #AI #Pathways #MachineLearning #DataCenter #AsyncTraining #AIInfrastructure #LLM #DeepLearning #TechNews #AINews #VietnamAI


