据VentureBeat 4月2日报道,微软发布了3款自研AI模型,分别覆盖语音转写、语音生成和图像生成。
此次推出的模型包括语音转写模型MAI-Transcribe-1、语音生成模型MAI-Voice-1,以及图像生成模型MAI-Image-2,已可通过Microsoft Foundry和MAI Playground使用。
报道称,MAI-Transcribe-1在多语言语音识别基准测试FLEURS中,25种语言的平均词错误率(WER)为3.8%。在25种语言的整体比较中,该模型表现优于OpenAI的Whisper-large-v3;与Google Gemini 3.1 Flash相比,则在25种语言中的22种语言上占优。微软目前正将该模型用于测试Copilot语音模式和Teams会议转写功能。
MAI-Voice-1可在1秒内生成60秒语音,并可基于数秒语音样本生成相似声线,定价为每100万字符22美元。MAI-Image-2则在AI模型评测平台Arena.ai的排行榜中跻身前三,生成速度较上一代提升两倍以上;其定价为文本输入每100万Token 5美元、图像输出每100万Token 33美元。大型广告公司WPP作为早期企业合作伙伴参与了相关项目。
此次模型研发中,团队规模也受到关注。微软AI部门负责人Mustafa Suleyman表示,语音模型由一个10人团队完成,速度、效率和准确率的提升,主要来自模型架构和数据优化;图像模型团队规模也不足10人。
与此同时,微软正采取更激进的定价策略。Mustafa Suleyman表示,其定价低于Amazon和Google等竞争对手,这是“有意为之”。在这一背景下,微软股价今年以来已下跌约17%,公司面临投资者对AI投入变现能力的更大压力。
Mustafa Suleyman还透露,微软也将在大语言模型(LLM)领域开发自有模型。他表示,公司的目标是在有需要时,以更高效率和更低成本提供最先进的模型,并最终实现完全自主。