Theo TechCrunch, ngày 26/3 (giờ địa phương), Cohere đã công bố Transcribe, mô hình nhận dạng giọng nói tự động (ASR) nguồn mở dành cho doanh nghiệp. Mô hình có 200 triệu tham số, hỗ trợ 14 ngôn ngữ và có thể vận hành trên các GPU phổ thông.
Theo Cohere, Transcribe hỗ trợ nhiều ngôn ngữ như tiếng Anh, tiếng Pháp, tiếng Đức và tiếng Italy. Công ty cho biết mô hình này cho hiệu năng tốt hơn Zoom Scribe v1, IBM Granite 4.0 1B, ElevenLabs Scribe v2 và Qwen3-ASR-1.7B.
Trên bảng xếp hạng Open ASR của Hugging Face, Transcribe đạt tỷ lệ lỗi từ trung bình (WER) 5,42. Tuy vậy, TechCrunch cho biết hiệu năng của mô hình ở tiếng Bồ Đào Nha, tiếng Đức và tiếng Tây Ban Nha vẫn thấp hơn tương đối so với một số ngôn ngữ khác.
Cohere cũng cho biết Transcribe có thể xử lý 525 phút âm thanh chỉ trong một phút. Công ty dự kiến tích hợp mô hình này vào nền tảng AI doanh nghiệp North, đồng thời cung cấp miễn phí thông qua API.