ロボットスタートアップのPhysical Intelligenceは、学習データに含まれていないタスクにも対応できる新ロボットモデル「π0.7」を公開した。従来のように単一タスクに特化するのではなく、既習の動作や知識を組み合わせて新たな作業に対応する能力を打ち出しており、汎用ロボットの実現に向けた一歩とみられる。
米TechCrunchによると、π0.7は「構成的一般化(Compositional Generalization)」の初期的な実証結果を示した。これは、過去に学習した個別の動作や知識を組み合わせ、初めての環境や作業にも対応する能力を指す。
従来のロボット学習では、特定の作業に関する大量のデータを学習させ、同じ作業を繰り返し実行させる手法が主流だった。これに対しπ0.7は、単純な作業の記憶にとどまらず、Web上の事前学習データと実世界の行動データを組み合わせることで、未知のタスクへの拡張を目指した。Physical Intelligenceは、これを汎用ロボットの頭脳に近づくための初期段階と位置付けている。
代表例として挙げられたのが、エアフライヤーを使った実験だ。研究チームによると、エアフライヤーに直接関連する学習データは2件程度にとどまった。それでもπ0.7は追加学習なしでサツマイモを調理する作業に取り組み、人が各段階で言語による指示を与えることで、実際の作業を成功させたという。
共同創業者のセルゲイ・レヴィン氏は「正確に学習した作業だけを実行する段階を超え、新しい形で組み合わせて実行できるようになれば、性能改善の余地はさらに広がる」と述べ、「言語モデルや視覚モデルで見られるスケーリング特性に似ている」と説明した。
同モデルのポイントは、新たな環境に導入された後も、追加のデータ収集や再学習を行わずに現場で性能を改善できる可能性がある点だ。一方で、完全な自律性にはなお至っていない。抽象度の高い単一の指示だけで複雑な多段階作業をこなすのは難しく、段階的な指示が与えられた場合に安定して動作する水準だとしている。
研究チームは技術的な限界も認めている。ロボティクス分野では統一的な標準ベンチマークが不足しており、外部による検証が容易ではないためだ。このためPhysical Intelligenceは、π0.7を自社の既存の専用モデルと比較し、コーヒー作り、洗濯物の折りたたみ、箱の組み立てといった複合タスクで同等の性能を確認したと公表した。
また、性能はモデルそのものの能力だけで決まるわけではないという。研究者のアシュウィン・バラクリシュナ氏は、初期のエアフライヤー実験では成功率が約5%にとどまったものの、約30分かけて指示の出し方を改善した結果、95%まで上昇したと明らかにした。「失敗の原因がロボットではなく、人間の説明の仕方にある場合も多い」として、プロンプト設計の重要性を強調した。
予想外の挙動も確認された。バラクリシュナ氏は、任意のギアセットをロボットに渡して回転させるよう指示したところ、追加学習なしで実行する様子を確認したと述べた。レヴィン氏も、初期の大規模言語モデル(LLM)が予想外の結果を生み出した事例に触れ、ロボティクスでも同様の創発的な能力が表れ始めているとの見方を示した。
ただ、商用化にはなお時間がかかるとの立場だ。研究チームは論文の中で、π0.7を一般化能力の初期シグナルであり、新たな能力を示す初期デモだと位置付け、依然として研究段階にあると明確にした。
それでも市場の期待は強い。Physical Intelligenceはこれまでに10億ドル超(約1500億円超)を調達しており、直近の企業価値は56億ドル(約8400億円)と評価された。業界では、企業価値を110億ドル(約1兆6500億円)規模まで引き上げる新たな投資が実施されるとの観測も出ている。