写真=Cohere

企業向けAIを手がけるCohereは、オープンソースの自動音声認識(ASR)モデル「Transcribe」を公開した。2億パラメータの小型モデルで、14言語に対応し、一般向けGPUでも動作するという。TechCrunchが26日(現地時間)に報じた。

対応言語は英語、フランス語、ドイツ語、イタリア語など計14言語。Cohereは、Transcribeについて、Zoom Scribe v1、IBM Granite 4.0 1B、ElevenLabs Scribe v2、Qwen3-ASR-1.7Bを上回る性能を示したとしている。

Hugging FaceのOpen ASRリーダーボードでは、平均単語誤り率(WER)は5.42を記録し、競合モデルを上回った。一方で、ポルトガル語、ドイツ語、スペイン語では、他の言語に比べて性能がやや低かったとTechCrunchは伝えている。

Cohereはあわせて、Transcribeが1分間で525分相当の音声を処理できる点を強調した。今後は企業向けAIプラットフォーム「North」に統合し、API経由で無料提供する計画としている。

キーワード

#Cohere #AI #自動音声認識 #ASR #オープンソース #Transcribe #Hugging Face #API
Copyright © DigitalToday. All rights reserved. Unauthorized reproduction and redistribution are prohibited.