Theo TechCrunch, Mistral - startup AI của Pháp - đã công bố mô hình chuyển văn bản thành giọng nói (TTS) mã nguồn mở mang tên Voxtral TTS. Sản phẩm được định vị cho các ứng dụng như trợ lý giọng nói AI và giải pháp hỗ trợ khách hàng.
Voxtral TTS tham gia thị trường đang có sự hiện diện của nhiều tên tuổi như ElevenLabs, Deepgram và OpenAI.
Mô hình này hiện hỗ trợ 9 ngôn ngữ, gồm tiếng Anh, Pháp, Đức, Tây Ban Nha, Hà Lan, Bồ Đào Nha, tiếng Italy, Hindi và tiếng Ả Rập.
Phó chủ tịch Mistral AI, Pierre Stock, cho biết công ty đã phát triển một mô hình giọng nói dung lượng nhỏ để đáp ứng nhu cầu chạy trực tiếp trên các thiết bị biên như smartwatch, smartphone và laptop. Theo ông, cách tiếp cận này giúp giảm chi phí nhưng vẫn bảo đảm hiệu năng ở mức cao so với các mô hình hiện có.
Voxtral TTS cũng có thể tạo giọng nói tùy biến chỉ từ một mẫu giọng dài chưa đến 5 giây, đồng thời tái hiện được những khác biệt nhỏ về ngữ điệu, trọng âm và cách phát âm. Ngay cả khi chuyển sang ngôn ngữ khác, mô hình vẫn giữ được đặc trưng giọng nói, qua đó có thể phục vụ các tác vụ như lồng tiếng hoặc dịch thời gian thực.
Mistral cho biết mục tiêu của Voxtral TTS là tạo ra giọng đọc tự nhiên hơn, giảm cảm giác máy móc thường thấy ở các hệ thống tổng hợp giọng nói.