Google发布多模态AI模型Gemini Omni。该模型可联合理解文本、图片、音频和视频,并可用于视频生成。
据TechCrunch 5月19日(当地时间)报道,Google在年度开发者大会Google I/O上推出Gemini Omni,并率先上线首个版本Gemini Omni Flash。目前,该模型已接入Gemini应用、YouTube Shorts以及AI创作工具Flow。
Google表示,Gemini Omni并非简单叠加多模态输入,而是能够对图片、音频、视频和文本进行联合推理,从而提升生成结果的一致性,使生成视频在物理规律、文化语境、历史背景和科学知识等方面更贴近真实。
Google还计划在未来持续扩展Gemini Omni的能力,包括基于音频生成图片,以及根据视频生成音频等。
此次Google率先开放的是Gemini Omni的视频生成能力。用户无需借助复杂的视频剪辑软件,仅通过自然语言指令即可编辑图片,也可使用个人数字分身生成视频。
为防范深度伪造风险,用户若要使用数字分身功能,需先完成单独注册流程。按照要求,用户需要自行拍摄视频并朗读数字,生成后的数字分身将被保存,以便后续重复使用。Google称,所有由Gemini Omni生成的视频都将嵌入其数字水印SynthID。
Google DeepMind产品管理负责人Nicole Brichettova表示,Gemini Omni并不是对现有视频生成模型Veo的简单升级,而是将Gemini的智能能力与媒体生成、渲染能力结合在一起的下一代技术。
DeepMind首席技术官Koray Kavukcuoglu举例称,用户只需输入“解释蛋白质折叠的黏土动画”这样的简短提示词,系统就能快速生成定格动画风格的视频,并配上语音解说。
首个版本Gemini Omni Flash目前可生成10秒视频。Google表示,这并非模型本身的能力限制,而是为了让更多用户优先体验,后续将很快支持生成更长视频。
Google目前将Gemini Omni Flash主要定位为面向普通用户的产品,并给出了多种使用场景示例,包括生成颁奖画面、登月视频,以及在旅行视频背景中移除路人等。Google也提醒称,如果编辑指令不够具体,系统可能会出现过度修改,连用户原本不希望改变的元素也可能被调整。
Google预计将在未来几天内通过API开放Gemini Omni,并正在准备面向广告和视频制作等专业用途的更高阶模型Gemini Omni Pro,但暂未披露具体发布时间。