

🗣️ Microsoft VibeVoice: Bộ AI Giọng Nói Mã Nguồn Mở 33K Stars Mà Dev Nào Cũng Nên Biết
Bạn có tưởng tượng được một AI mã nguồn mở có thể nghe hiểu 60 phút audio liên tục, rồi tổng hợp giọng nói 90 phút với 4 người nói khác nhau không? Microsoft vừa làm được điều đó với VibeVoice.
🎙️ VibeVoice Là Gì Mà Hot Vậy?
VibeVoice là bộ mô hình AI giọng nói mã nguồn mở của Microsoft, hiện đã cán mốc 33,000+ stars trên GitHub. Không phải một model đơn lẻ, đây là cả một hệ sinh thái gồm 3 model chuyên biệt: nhận dạng giọng nói (ASR), tổng hợp giọng nói (TTS), và TTS thời gian thực. Tất cả đều miễn phí, mã nguồn mở theo giấy phép MIT, và đã được tích hợp vào Hugging Face Transformers từ tháng 3/2026.
Link mã nguồn: https://github.com/microsoft/VibeVoice
🧠 Ba Model, Ba Siêu Năng Lực
VibeVoice-ASR (7B) là con quái vật trong mảng speech-to-text. Nó xử lý được 60 phút audio liên tục chỉ trong một lần chạy, tự động nhận diện ai đang nói, đánh timestamp chính xác, và hỗ trợ hơn 50 ngôn ngữ. Bạn còn có thể cài hotword tùy chỉnh để nó nhận diện thuật ngữ chuyên ngành tốt hơn.
VibeVoice-TTS (1.5B) thì đi theo hướng ngược lại, biến text thành giọng nói. Điều đặc biệt là nó tổng hợp được 90 phút hội thoại với tối đa 4 giọng nói khác nhau, mỗi giọng mang cảm xúc riêng biệt. Model này đã được chấp nhận làm Oral presentation tại ICLR 2026, hội nghị AI hàng đầu thế giới.
VibeVoice-Realtime (0.5B) nhỏ gọn nhất nhưng nhanh nhất. Chỉ 300 mili-giây là bạn nghe được âm thanh đầu tiên, hỗ trợ streaming text input và generate liên tục đến 10 phút. Phù hợp cho chatbot, trợ lý ảo, hoặc bất kỳ ứng dụng nào cần phản hồi tức thì.
⚙️ Công Nghệ Đằng Sau
VibeVoice sử dụng next-token diffusion framework xây trên nền Qwen2.5 1.5B, kết hợp một diffusion head chuyên xử lý chi tiết âm thanh. Điểm sáng tạo nhất nằm ở bộ tokenizer hoạt động ở tần số siêu thấp 7.5Hz. Trong khi các model khác chạy ở 25-50Hz, VibeVoice chỉ cần 7.5Hz mà vẫn giữ chất lượng audio cao. Ít token hơn đồng nghĩa với xử lý nhanh hơn và tiết kiệm tài nguyên hơn rất nhiều.
⚠️ Chuyện Deepfake Và Bài Học Về AI Có Trách Nhiệm
Tháng 9/2025, Microsoft đã phải gỡ toàn bộ code TTS khỏi repo sau khi phát hiện VibeVoice bị lạm dụng để tạo deepfake giọng nói. Đây là lời nhắc nhở rằng công nghệ mạnh luôn đi kèm rủi ro. Hiện tại Microsoft đã đưa code trở lại kèm theo cảnh báo rõ ràng: cấm sử dụng cho mục đích giả mạo hoặc phát tán thông tin sai lệch.
🌍 Cộng Đồng Đang Xây Gì Từ VibeVoice?
Hệ sinh thái xung quanh VibeVoice đang nở rộ. Vibing biến VibeVoice-ASR thành công cụ nhập liệu bằng giọng nói. Vision-to-VibeVoice kết hợp nhận diện hình ảnh với tổng hợp giọng nói, cho phép "nhìn ảnh rồi đọc mô tả". Hàng chục fork cộng đồng đang mở rộng khả năng của VibeVoice theo nhiều hướng khác nhau.
Bạn sẽ dùng VibeVoice cho dự án gì? Comment ý tưởng của bạn nhé!


