Google发布多模态AI模型Gemini Omni：可基于文本、图片和音频生成视频

生成中...

Chi-kyu Hwang

发布时间 2026-05-20 05:09:34

搜索关键词

Google发布多模态AI模型Gemini Omni。该模型可联合理解文本、图片、音频和视频，并可用于视频生成。

据TechCrunch 5月19日（当地时间）报道，Google在年度开发者大会Google I/O上推出Gemini Omni，并率先上线首个版本Gemini Omni Flash。目前，该模型已接入Gemini应用、YouTube Shorts以及AI创作工具Flow。

Google表示，Gemini Omni并非简单叠加多模态输入，而是能够对图片、音频、视频和文本进行联合推理，从而提升生成结果的一致性，使生成视频在物理规律、文化语境、历史背景和科学知识等方面更贴近真实。

Google还计划在未来持续扩展Gemini Omni的能力，包括基于音频生成图片，以及根据视频生成音频等。

此次Google率先开放的是Gemini Omni的视频生成能力。用户无需借助复杂的视频剪辑软件，仅通过自然语言指令即可编辑图片，也可使用个人数字分身生成视频。

为防范深度伪造风险，用户若要使用数字分身功能，需先完成单独注册流程。按照要求，用户需要自行拍摄视频并朗读数字，生成后的数字分身将被保存，以便后续重复使用。Google称，所有由Gemini Omni生成的视频都将嵌入其数字水印SynthID。

Google DeepMind产品管理负责人Nicole Brichettova表示，Gemini Omni并不是对现有视频生成模型Veo的简单升级，而是将Gemini的智能能力与媒体生成、渲染能力结合在一起的下一代技术。

DeepMind首席技术官Koray Kavukcuoglu举例称，用户只需输入“解释蛋白质折叠的黏土动画”这样的简短提示词，系统就能快速生成定格动画风格的视频，并配上语音解说。

首个版本Gemini Omni Flash目前可生成10秒视频。Google表示，这并非模型本身的能力限制，而是为了让更多用户优先体验，后续将很快支持生成更长视频。

Google目前将Gemini Omni Flash主要定位为面向普通用户的产品，并给出了多种使用场景示例，包括生成颁奖画面、登月视频，以及在旅行视频背景中移除路人等。Google也提醒称，如果编辑指令不够具体，系统可能会出现过度修改，连用户原本不希望改变的元素也可能被调整。

Google预计将在未来几天内通过API开放Gemini Omni，并正在准备面向广告和视频制作等专业用途的更高阶模型Gemini Omni Pro，但暂未披露具体发布时间。

Chi-kyu Hwang delight@d-today.co.kr