ENPIREのシステム構成。画像提供:NVIDIA

NVIDIAは、AIコーディングエージェントを活用し、人手を介さず実機ロボットを学習させるフレームワーク「ENPIRE」を公開した。カーネギーメロン大学、カリフォルニア大学バークレー校との共同研究として論文を発表した。

ENPIREは2段階で動作する。初回のみ人手で、作業空間を初期状態に戻すリセット手順と、カメラ映像を基に成功・失敗を判定する報酬関数を設定する。

その後はエージェントが論文を参照しながら手法を選び、模倣学習、強化学習、ルールベース手法の中から適切な学習方式を選んでコードを修正し、実機で検証を繰り返す。この反復過程に人による監視や介入は不要だという。

中核となるのは、AIコーディングエージェントがロボット学習の全工程を自律的に回す点だ。OpenAIのCodex、AnthropicのClaude Code、MoonshotのKimi Codeのようなエージェントは、コード生成、テスト、修正の自動反復自体は従来から担ってきたが、主に画面内で完結する用途にとどまっていた。

NVIDIAは自社研究施設のGEAR Labで、両腕ロボット8台を運用した。各ステーションには独自のハードウェア、コンピュータ、コーディングエージェントを備え、Gitを通じて学習結果を共有する構成とした。1台がより優れた手法を見つけると、その結果は数分以内に全ステーションへ反映されるという。

実験では、4mmの穴へのピン挿入、グラフィックスカードの取り付け、ケーブルタイの切断などに取り組んだ。実環境の4課題では成功率99%を記録し、ピン挿入では人手による手法を上回る精度を示したとしている。

学習速度はロボット台数の増加に応じて向上した。NVIDIAによると、1台から8台に拡張した場合、「Push-T」課題の習熟時間は約5時間から2時間に短縮した。ピン挿入も90分超から約40分に短縮した。

一方で、ロボット台数の増加に比べてトークン利用コストの伸びが大きい点を課題に挙げた。

NVIDIAでAI研究を統括し、GEAR Labの共同リードを務めるジム・ファン氏は、物理環境で自動研究を実現する初の試みだと説明した。複数のロボットとGPUリソース、十分なトークン予算をエージェントに割り当て、できるだけ早く課題を解決し、ロボットを継続的に稼働させるよう設計したと述べた。

ただ、シミュレーションの成果がそのまま実機に移行するわけではなかった。3種類のコーディングエージェントはいずれもシミュレーター上ではPush-Tを解けたが、実機ロボットに移すと3つのうち2つは失敗した。NVIDIAは、与えられた環境変数がシミュレーターと実環境で異なっていたことが原因だと分析している。

NVIDIAは、シミュレーションベンチマーク「RoboCasa」でもENPIREを検証した。キッチン環境を想定した同ベンチマークでは、NVIDIAのエンドツーエンドモデル「GR00T」や、自動研究プロセスを省略するツール利用型エージェント「CaP-X」を上回る性能を示したという。

今回の公開は、NVIDIAが2023年に披露した「Eureka」の延長線上にある。Eurekaがシミュレーター内で言語モデルがロボット向けの報酬関数を生成する段階にとどまっていたのに対し、ENPIREは自己改善の反復構造を実機ハードウェアへ拡張した。報酬関数の作成に加え、実験設計、コード修正、検証までをエージェントが担う構成となっている。

ロボット向けAIを巡る開発競争も活発化している。Alibabaは同じ週、ロボットの移動、操作、物理シミュレーション向けの基盤モデル3種で構成する「Qwen-Robot Suite」を公開した。これに対しNVIDIAは、自社のハードウェア上で研究ループ全体を自動化するアプローチに注力している。実機ロボットがAIコーディングエージェント競争の新たな主戦場になりつつあることを示す動きといえそうだ。

キーワード

#NVIDIA #AI #ロボット #ENPIRE #強化学習 #模倣学習 #GEAR Lab
Copyright © DigitalToday. All rights reserved. Unauthorized reproduction and redistribution are prohibited.