Stability AI发布Stable Audio 3.0：Medium/Large最长可生成6分20秒完整歌曲

生成中...

Chi-gyu Hwang

发布时间 2026-05-21 06:28:28

搜索关键词

5月20日，据TechCrunch报道，Stability AI发布新一代音频生成模型系列Stable Audio 3.0，最长可生成6分20秒的完整音乐内容。

Stability AI介绍，Stable Audio 3.0包括Small SFX、Small、Medium和Large四档模型。其中，最高规格版本最长可生成6分20秒的专业级音乐内容。

参数规模方面，Small SFX和Small均为4.59亿参数，支持在设备端生成最长2分钟的音效和音乐；Medium为14亿参数，Large为27亿参数。

其中，Medium和Large均可生成最长6分20秒的完整歌曲，并尽量保持较完整的音乐结构和旋律走向。Stability AI表示，与2024年发布的Stable Audio 2.0相比，新模型的可生成音频时长提升了一倍以上。

目前，Stability AI已开放Small SFX、Small和Medium的模型权重，任何人均可使用并修改。Large则仅通过付费API和自托管方式提供。对于年营收超过100万美元的企业，还需单独获取企业许可证。

Stability AI表示，这一音频生成模型系列基于已获得完整授权的数据训练。去年，该公司还与Warner Music Group、Universal Music Group签署协议，共同开发模型及音乐制作工具。

此外，Stability AI正在开发面向专业音乐人的新产品线，但暂未披露具体功能。TechCrunch称，曾在Universal Audio和Fender担任首席数字官的Ethan Kaplan已加入Stability AI，负责推进面向专业音乐人的产品开发。

Chi-gyu Hwang delight@d-today.co.kr