ロボット向けAIモデルの開発競争が加速している。米The Informationによると、足元では大規模言語モデル(LLM)を基盤とするVLA(Vision-Language-Action models)と、現実世界の変化を予測・再現するワールドモデルの2つの潮流が主導権を争っている。
VLA陣営では、NVIDIAの「Groot」やPhysical Intelligenceの「Pi(π)」モデルが代表格とされる。
Microsoftが1月に公開したフィジカルAI向けロボティクスモデル「Rho-alpha」もVLAベースだ。同社はRho-alphaを通じ、物理システムの柔軟な適応力を高めることを目指している。
Microsoftによると、これまでのロボットは、作業が予測可能で厳密に定義された組立ラインのような構造化環境で成果を上げてきた。これに対しVLAモデルは、複雑で定型化されていない非構造化環境でも、ロボットが人と協調しながら自律的に認識、推論、行動することを後押しするとしている。
一方、The Informationは最近のシリコンバレーでワールドモデルへの関心が高まっていると報じた。
AI映像スタートアップのLumaは6月、ロボティクス向けワールドモデルに重点を置くフィジカルAIラボを立ち上げた。ヒューマノイドスタートアップの1Xも、独自のワールドモデル研究所を設立すると発表している。
ワールドモデルを支持する立場からは、物理法則への深い理解をもとに、物体の落下や破損といった現実の事象を予測し、ロボット学習向けのシミュレーションを生成できる点が強みとして挙げられている。こうしたモデルは、ロボットの「AIの脳」として機能する可能性があるとの見方もある。
カーネギーメロン大学コンピュータサイエンス学部長のマーシャル・エバーは、チャットボットにはコーヒーカップをつかむことはできないとし、既存の言語モデルの限界を指摘した。「手をどう動かすか、カップとどう物理的に接触するかは、次の単語を予測するよりはるかに複雑だ」と述べた。
もっとも、ワールドモデルには依然として誤りが多く、現実世界を正確にシミュレーションできないとの懐疑的な見方もある。それでもThe Informationは、投資家のVLAへの期待がやや後退する中で、ワールドモデルへの注目が強まっていると伝えた。
同誌によると、NVIDIAの「Groot」やPhysical Intelligenceの「Pi(π)」モデルのようなVLAは、基盤言語モデルの知能や自然言語理解を取り込むことで一定の成果を上げてきた。ただ、登場から2年たった今も、実際の生産現場でロボットを安定稼働させるには信頼性がなお不十分だという。
産業用厨房で食事の組み立てロボットを手がけるChef RoboticsのCEO、ラジャット・バゲリア氏は、「ロボット運用へのVLA活用を試してきたが、長期的にはワールドモデルの方が有望だ」と語った。「現在のVLAは遅すぎるうえ、信頼性も低い。本格活用にはまだ準備が整っていない」との見方を示した。
バゲリア氏は、Google DeepMindの「Genie 3」を活用してWaymoが開発したワールドモデルにも言及した。このモデルは、竜巻や道路上のゾウといった極めて例外的な道路状況をシミュレーションできるという。
ただ、ロボット向けAIモデルの勢力図を、ワールドモデルとVLAの二項対立だけで捉えるのは現実的ではないとの見方もある。
The Informationによると、NVIDIAのワールドモデル「Cosmos 3」は、ワールドモデルとVLAの要素を組み合わせた設計を採る。テキストや画像を分析するだけでなく、物理的なリアリティを備えた映像も生成できるという。
ロボット工学のある研究グループも最近、「ロボットにはVLAやワールドモデルだけでは不十分だ」と指摘した。どのタイプのモデルが優れているかという議論自体が本質を外しており、より大きな課題は、インターネット上の動画のような物理データを、ロボットが学習しやすい形にどう変換するかにあると強調している。