Googleは、画像、音声、動画、テキストを統合的に処理し、動画を生成できるマルチモーダルAIモデル「Gemini Omni」を発表した。年次開発者会議「Google I/O」では初期モデル「Gemini Omni Flash」を披露し、Geminiアプリ、YouTube Shorts、AIクリエイティブツール「Flow」に先行導入した。生成したすべての動画には、デジタル透かし技術「SynthID」を埋め込む。
TechCrunchの19日付報道によると、Gemini Omniは複数の入力を単純に組み合わせるのではなく、画像、音声、動画、テキストを同時に推論し、整合性のある出力を生成するのが特徴だ。Googleは、物理、文化、歴史、科学に関する理解を反映した高品質な動画を生成できるとしている。
Googleは将来的に、音声から画像を生成したり、動画から音声を作成したりする方向へとGemini Omniの機能を拡張する計画だ。
今回の発表では、まず動画生成機能に軸足を置いた。ユーザーは複雑な編集ソフトを使わず、自然言語による指示だけで写真を編集できるほか、自身のデジタルアバターを使った動画生成にも対応する。
ディープフェイク対策として、アバターの作成には別途の登録手続きが必要になる。ユーザーが自分自身を撮影し、数字を読み上げて本人確認を行うとアバターが保存され、以後は再利用できる。
Google DeepMindでプロダクトマネジメントを統括するニコル・ブリヒトバ氏は、Gemini Omniは既存の動画生成モデル「Veo」の単純な改良版ではないと説明した。Geminiの推論能力と、メディアモデルのレンダリング性能を組み合わせた新世代の技術だという。Google DeepMindの最高技術責任者(CTO)、コライ・カブクチュオルル氏は、「タンパク質の折りたたみを説明するクレイアニメーション」という簡単なプロンプトだけで、ストップモーション風の動画と音声解説を短時間で作成できたと紹介した。
初期モデルのGemini Omni Flashは、まず10秒の動画生成に対応する。Googleは、これはモデル性能の制約ではなく、より多くのユーザーにまず試してもらうための判断だと説明している。より長い動画を生成する機能も近く追加する予定だ。
GoogleはGemini Omni Flashを、まずは個人向けツールとして展開する方針を示した。活用例として、表彰シーンや月に向かう映像の作成、旅行動画の背景に写り込んだ通行人の削除などを挙げた。一方で、編集指示が曖昧な場合には、意図しない要素まで変わってしまう過剰修正が起こり得るとも説明した。
Googleは数日以内に、Gemini OmniをAPIとしても提供する予定だ。広告や映像制作などの専門用途を想定した上位モデル「Gemini Omni Pro」も準備しているが、提供時期は明らかにしていない。