微软发布3款自研AI模型，以更激进的定价抢占市场

生成中...

Chi-gyu Hwang

发布时间 2026-04-02 21:18:59

搜索关键词

据VentureBeat 4月2日报道，微软发布了3款自研AI模型，分别覆盖语音转写、语音生成和图像生成。

此次推出的模型包括语音转写模型MAI-Transcribe-1、语音生成模型MAI-Voice-1，以及图像生成模型MAI-Image-2，已可通过Microsoft Foundry和MAI Playground使用。

报道称，MAI-Transcribe-1在多语言语音识别基准测试FLEURS中，25种语言的平均词错误率（WER）为3.8%。在25种语言的整体比较中，该模型表现优于OpenAI的Whisper-large-v3；与Google Gemini 3.1 Flash相比，则在25种语言中的22种语言上占优。微软目前正将该模型用于测试Copilot语音模式和Teams会议转写功能。

MAI-Voice-1可在1秒内生成60秒语音，并可基于数秒语音样本生成相似声线，定价为每100万字符22美元。MAI-Image-2则在AI模型评测平台Arena.ai的排行榜中跻身前三，生成速度较上一代提升两倍以上；其定价为文本输入每100万Token 5美元、图像输出每100万Token 33美元。大型广告公司WPP作为早期企业合作伙伴参与了相关项目。

此次模型研发中，团队规模也受到关注。微软AI部门负责人Mustafa Suleyman表示，语音模型由一个10人团队完成，速度、效率和准确率的提升，主要来自模型架构和数据优化；图像模型团队规模也不足10人。

与此同时，微软正采取更激进的定价策略。Mustafa Suleyman表示，其定价低于Amazon和Google等竞争对手，这是“有意为之”。在这一背景下，微软股价今年以来已下跌约17%，公司面临投资者对AI投入变现能力的更大压力。

Mustafa Suleyman还透露，微软也将在大语言模型（LLM）领域开发自有模型。他表示，公司的目标是在有需要时，以更高效率和更低成本提供最先进的模型，并最终实现完全自主。

Chi-gyu Hwang delight@d-today.co.kr