Google、ロボット向けAI「Gemini Robotics ER 1.6」発表　空間・物理推論を強化

Googleは15日（現地時間）、ロボット向けAIモデル「Gemini Robotics ER 1.6」を発表した。空間・物理推論や物体認識を強化し、作業中に検索ツールを利用して必要な情報を取得する機能や、アナログ計器の読み取り、安全制約の遵守、複数カメラを用いた多視点推論の性能を高めた。

GIGAZINEによると、新モデルは周囲の状況を理解したうえで、検索ツールも活用しながら作業を進められるよう設計された。ロボットが指示を実行するだけでなく、物理環境そのものを解釈する力を高めた点が特徴だ。

Googleは、前世代モデルと比べて空間・物理推論の性能が向上したとしている。物体認識の精度も高まり、対象物の個数カウントや視野内で最も数の少ない対象の特定、特定のカップに入る大きさの小さな物体の選別といった複合的な指示にも対応できるという。

空間の状態を判断する機能も備えた。例えばドアが開いているかどうかを推定できるほか、作業中にGoogle検索をツールとして呼び出し、必要な情報を取得できる。

さらに、視覚・言語・行動モデルに加え、外部定義の関数も組み合わせて利用できる。外部情報とロボット自身の認識結果を統合しながら行動する構成だ。

新機能の1つが、アナログ計器の読み取りだ。Gemini Robotics ER 1.6は視覚情報を基に、圧力計などのアナログ計器を判読できる。

Googleは、画像を拡大して比率や間隔を推定する「エージェンティック・ビジョン」を適用したことで、前モデル「Gemini Robotics ER 1.5」に比べて計器の読み取り性能が大幅に向上したと説明した。この機能は、協業先であるBoston Dynamicsの要望をきっかけに開発したという。

安全面への対応も強化した。新モデルは、液体を扱わない、20kgを超える物体を持ち上げないといった物理的な安全制約を、より適切に遵守できるよう設計されている。

周囲の危険要素を識別する能力も高めた。単に作業成功率を追うのではなく、行動上の制約条件も踏まえて判断する狙いがある。

複数のカメラ映像を統合して解釈する多視点推論機能も改善した。Gemini Robotics ER 1.6は、異なるカメラが捉えた場面同士の関係を、従来より正確に理解できるようになったとしている。

これにより、複雑な空間でも位置関係や対象物の関係性を把握できる範囲が広がる見通しだ。

Googleは、ロボットの活用領域を広げるには、物理世界に対する推論能力が不可欠だと強調した。日常生活や産業現場で実用性を高めるには、単に指示に従うだけでなく、物理世界を理解する力が必要だとしている。

また、複雑な施設内の移動や圧力計の針の読み取りのような場面では、ロボットの感覚と結び付いた推論能力が、デジタル世界と物理世界の隔たりを埋める鍵になると説明した。

Jinju Hong hongjj@d-today.co.kr

生成中...

AI要約

Googleはロボット向けAIモデル「Gemini Robotics ER 1.6」を発表した。空間・物理推論や物体認識を強化し、検索ツールの利用、アナログ計器の読み取り、安全制約の遵守、多視点推論の精度を高めた。