图片来源:Shutterstock

5月20日,据TechCrunch报道,Stability AI发布新一代音频生成模型系列Stable Audio 3.0,最长可生成6分20秒的完整音乐内容。

Stability AI介绍,Stable Audio 3.0包括Small SFX、Small、Medium和Large四档模型。其中,最高规格版本最长可生成6分20秒的专业级音乐内容。

参数规模方面,Small SFX和Small均为4.59亿参数,支持在设备端生成最长2分钟的音效和音乐;Medium为14亿参数,Large为27亿参数。

其中,Medium和Large均可生成最长6分20秒的完整歌曲,并尽量保持较完整的音乐结构和旋律走向。Stability AI表示,与2024年发布的Stable Audio 2.0相比,新模型的可生成音频时长提升了一倍以上。

目前,Stability AI已开放Small SFX、Small和Medium的模型权重,任何人均可使用并修改。Large则仅通过付费API和自托管方式提供。对于年营收超过100万美元的企业,还需单独获取企业许可证。

Stability AI表示,这一音频生成模型系列基于已获得完整授权的数据训练。去年,该公司还与Warner Music Group、Universal Music Group签署协议,共同开发模型及音乐制作工具。

此外,Stability AI正在开发面向专业音乐人的新产品线,但暂未披露具体功能。TechCrunch称,曾在Universal Audio和Fender担任首席数字官的Ethan Kaplan已加入Stability AI,负责推进面向专业音乐人的产品开发。

关键词

#Stability AI #Stable Audio 3.0 #音频生成 #音乐生成 #生成式AI #模型权重 #API #自托管 #企业许可证
版权所有 © DigitalToday。未经授权禁止转载或传播。