画像提供:RLWRLD

RLWRLDは5月7日、自社開発のロボット向け基盤モデル「RLDX-1」を公開したと発表した。8.1Bパラメータの3モデルで構成し、モデル重み、学習コード、技術文書をGitHubとHugging Faceで研究者向けに公開している。

公開したのは、事前学習チェックポイント「RLDX-1-PT」と、プラットフォーム別のミッドトレーニングチェックポイント「RLDX-1-MT-ALLEX」「RLDX-1-MT-DROID」の計3モデル。いずれも8.1Bパラメータとなる。

同社によると、RLDX-1は高自由度の5指ロボットハンドで人間並みの操作性能の実現を目指す「Dexterity-First」の基盤モデル。視覚や言語に加え、手にかかる力(トルク)、触覚、作業記憶までを単一モデルで扱う点が特徴で、視覚・言語中心の既存の汎用VLA(Vision-Language-Action)モデルとは一線を画すとしている。

性能面では、公開ベンチマーク8件で、NVIDIAのGR00TやPhysical Intelligenceのpi;0など既存モデルを上回ったという。

中核技術として挙げるのが、マルチストリーム・アクション・トランスフォーマー(Multi-Stream Action Transformer、MSAT)だ。従来のVLAが視覚、言語、行動、触覚、メモリなど異なる信号を単一ストリームのトランスフォーマーで処理するのに対し、MSATはモダリティごとに独立したストリームを設ける。これらをモダリティ間のジョイントアテンションで統合する構成としている。

また、視覚だけでは捉えにくい力(トルク)や触覚といった物理信号、長期記憶については、Physics ModuleとMemory Moduleでそれぞれ処理する。単一モデルで「見る」「感じる」「記憶する」「適応する」を実現する設計だと説明した。

RLWRLDのペ・ジェギョンCTOは、「各モダリティが十分に表現できるよう構造を分離したことがRLDX-1の核だ」とコメントした。「トルク信号で接触の瞬間を正確に捉え、時間軸の動的変化を推論する能力は、既存VLAでは構造的に扱いにくかった領域だ」としている。

RLWRLDは、SK Telecom、LG Electronics、CJ Logistics、Lotte、KDDI、ANA Holdingsなど日韓の大手企業から出資を受けている。さらに、日韓の大手企業約10社とベンチマークの共同開発やPoC(概念実証)、RX(Robotics Transformation)プロジェクトを進めているという。

同社は米国で13日にローンチイベント「Dexterity Night」を開催する。韓国、米国、日本のヒューマノイドハードウェア企業が参加し、「なぜロボット産業の次の変曲点は手なのか」をテーマにしたパネル討論も予定している。

RLWRLDのリュ・ジュンヒ代表は、「ピクセルに収まらない情報は、映像をいくら収集しても現れない」と述べた。そのうえで、「RLDX-1は、私たちが目指す方向を示す最初のマイルストーンにすぎない。日韓の産業現場で検証したデータと技術を基に、グローバルなヒューマノイドパートナーとともに4D+ワールドモデルへ進む長いロードマップの出発点となる」と語った。

同社は今回の米国でのローンチを皮切りに、日本と韓国でも順次、RLDX-1のローンチイベントを開催する予定だ。

キーワード

#RLWRLD #RLDX-1 #ロボティクス #基盤モデル #VLA #MSAT #GitHub #Hugging Face
Copyright © DigitalToday. All rights reserved. Unauthorized reproduction and redistribution are prohibited.