搜索关键词 音频生成
AI & Enterprise
Stability AI发布Stable Audio 3.0:Medium/Large最长可生成6分20秒完整歌曲
Stability AI推出新一代音频生成模型系列Stable Audio 3.0,其中Medium和Large最长可生成6分20秒完整歌曲,并尽量保持音乐结构和旋律连贯性。该系列分为Small SFX、Small、Medium和Large四档,其中Small SFX、Small和Medium已开放模型权重,Large则仅通过付费API和自托管方式提供。
AI & Enterprise
Google发布多模态AI模型Gemini Omni:可基于文本、图片和音频生成视频
Google在I/O开发者大会上发布多模态AI模型Gemini Omni,能够联合理解文本、图片、音频和视频,并用于视频生成。首个版本Gemini Omni Flash已率先接入Gemini应用、YouTube Shorts和创作工具Flow,所有生成视频均嵌入SynthID数字水印;数字分身功能需单独完成注册,API预计将在未来几天内开放。
AI & Enterprise
谷歌音乐生成AI Lyria 3体验:编曲表现不错,但机器感仍明显
记者实测谷歌DeepMind音乐生成模型Lyria 3发现,该模型可根据文本、图片(含乐谱)或和弦进行生成约3分钟的歌曲,并支持设定段落结构和转调。实际体验显示,其在编曲和段落衔接方面表现较好,但在押韵、人声风格和动机发展上仍显不足,整体机器感较强。