简体中文 < 文章列表 - 数字今日 (DigitalToday)

搜索关键词音频生成

AI & Enterprise

Stability AI发布Stable Audio 3.0：Medium/Large最长可生成6分20秒完整歌曲

Stability AI推出新一代音频生成模型系列Stable Audio 3.0，其中Medium和Large最长可生成6分20秒完整歌曲，并尽量保持音乐结构和旋律连贯性。该系列分为Small SFX、Small、Medium和Large四档，其中Small SFX、Small和Medium已开放模型权重，Large则仅通过付费API和自托管方式提供。

AI & Enterprise

Google发布多模态AI模型Gemini Omni：可基于文本、图片和音频生成视频

Google在I/O开发者大会上发布多模态AI模型Gemini Omni，能够联合理解文本、图片、音频和视频，并用于视频生成。首个版本Gemini Omni Flash已率先接入Gemini应用、YouTube Shorts和创作工具Flow，所有生成视频均嵌入SynthID数字水印；数字分身功能需单独完成注册，API预计将在未来几天内开放。

AI & Enterprise

谷歌音乐生成AI Lyria 3体验：编曲表现不错，但机器感仍明显

记者实测谷歌DeepMind音乐生成模型Lyria 3发现，该模型可根据文本、图片（含乐谱）或和弦进行生成约3分钟的歌曲，并支持设定段落结构和转调。实际体验显示，其在编曲和段落衔接方面表现较好，但在押韵、人声风格和动机发展上仍显不足，整体机器感较强。

搜索关键词音频生成

Stability AI发布Stable Audio 3.0：Medium/Large最长可生成6分20秒完整歌曲

Google发布多模态AI模型Gemini Omni：可基于文本、图片和音频生成视频

谷歌音乐生成AI Lyria 3体验：编曲表现不错，但机器感仍明显

Reka AI通过全股票交易收购Moonvalley，业务延伸至World Model和机器人

AI重塑媒体业：从内容制作到分发全链条加速落地

Microsoft重组Copilot团队：Mustafa Suleyman转向下一代AI模型研发

Runway获3.15亿美元E轮融资，加码World Model研发