

🎙️ Mistral Voxtral TTS mở source: clone giọng chỉ 3 giây, đấu trực diện ElevenLabs
Bạn có tin một mô hình TTS chỉ 4 tỷ tham số, mở weights miễn phí, lại đang khiến cả ElevenLabs phải nhìn lại bảng giá? Đây không phải drama, đây là Voxtral TTS vừa ra lò ngày 26/3/2026.
🚀 MISTRAL TUNG ĐÒN VÀO SÂN CHƠI VOICE AI
Ngày 26/3/2026, Mistral AI (Pháp) chính thức phát hành Voxtral TTS, mô hình text-to-speech đầu tiên trong gia đình Voxtral. Đáng chú ý, đây là một trong số rất ít mô hình TTS đạt chất lượng frontier mà weights được mở miễn phí trên Hugging Face.
Cú đáp trả này nhắm thẳng vào ElevenLabs, công ty đã thống trị thị trường giọng nói AI thương mại suốt nhiều năm qua. Cuộc chơi voice AI vừa thay đổi luật.
🧠 4 TỶ THAM SỐ NHƯNG CHẠY NGANG HẠNG SANG
Voxtral TTS chỉ có 4B tham số nhưng cho hiệu suất state-of-the-art trong sinh giọng đa ngôn ngữ. Mô hình hỗ trợ 9 ngôn ngữ: Anh, Pháp, Đức, Tây Ban Nha, Hà Lan, Bồ Đào Nha, Ý, Hindi và Ả Rập.
Tin buồn cho cộng đồng Việt: tiếng Việt chưa nằm trong danh sách hỗ trợ chính thức. Tuy nhiên với việc weights được mở, cộng đồng có thể fine-tune cho tiếng Việt trong tương lai gần.
🎤 CLONE GIỌNG TỪ 3 GIÂY, BẮT TRỌN CẢM XÚC
Đây là tính năng khiến giới làm voice phát sốt. Voxtral chỉ cần 2 đến 3 giây audio mẫu là có thể clone giọng, bắt được cả cảm xúc, phong cách nói và giọng vùng miền.
Không cần gắn thêm prosody hay emotion tag thủ công. Mô hình tự động bắt theo intonation, nhịp điệu và sắc thái cảm xúc trong voice prompt. Bạn nói buồn, nó buồn theo. Bạn nói vùng miền, nó cũng làm được.
Về tốc độ, độ trễ xử lý chỉ 90ms, API end to end trả về âm thanh đầu tiên sau 0.8 giây với PCM. Con số này đủ nhanh cho voice agent thời gian thực, gọi điện AI hay trợ lý ảo tương tác trực tiếp.
💰 GIÁ RẺ ĐẾN MỨC LÀM ELEVENLABS LẠNH GÁY
API cloud của Mistral cho Voxtral TTS có giá 0.016 USD trên 1000 ký tự, rẻ hơn nhiều so với ElevenLabs ở phân khúc tương đương.
Quan trọng hơn, doanh nghiệp có thể tự host hoàn toàn miễn phí từ weights trên Hugging Face, dưới giấy phép phù hợp cho enterprise. Với startup hay team in-house, đây là lựa chọn không thể bỏ qua khi muốn kiểm soát chi phí và dữ liệu.
🏆 MẢNH GHÉP CUỐI CỦA STACK SPEECH
Voxtral TTS chính là mảnh ghép cuối hoàn thiện stack speech của Mistral, gồm speech input (ASR), language understanding và speech output. Toàn bộ pipeline giọng nói giờ đã sẵn sàng.
Đây là tín hiệu rõ ràng: các startup voice AI cần xem xét lại định giá khi một mô hình open source 4B đã chạy ngang phân khúc cao cấp. Cộng với việc Mistral đã ship 6 sản phẩm trong 15 ngày, công ty Pháp này đang trở thành đối thủ đáng gờm cho cả OpenAI Voice và ElevenLabs.
Bạn có đang dùng ElevenLabs cho dự án voice và sẵn sàng test thử Voxtral không? Comment cho mình biết use case của bạn nhé!


