物理AI企业RLWRLD当地时间7日宣布,对外开源其自研机器人基础模型RLDX-1。
此次开源共包括3个版本,分别为预训练版本RLDX-1-PT,以及面向两种平台的中期训练版本RLDX-1-MT-ALLEX和RLDX-1-MT-DROID,均为81亿参数规模。相关模型权重、训练代码和技术文档已通过GitHub和Hugging Face向外部研究者开放。
据RLWRLD介绍,RLDX-1是一款以“灵巧优先”为核心的机器人基础模型,目标是为高自由度五指机器人灵巧手提供接近人类水平的操控能力。该模型在统一架构下同时处理视觉、语言、扭矩、触觉和工作记忆等信息,区别于以视觉和语言为主的通用VLA(Vision-Language-Action)模型。
公司称,在8项全球公开基准测试中,RLDX-1的表现优于NVIDIA GR00T、Physical Intelligence的π0等现有模型。
在技术架构上,RLWRLD将RLDX-1的核心归结为多流动作Transformer(Multi-Stream Action Transformer,MSAT)。与传统VLA将视觉、语言、动作、触觉、记忆等不同信号统一输入单流Transformer处理不同,MSAT为各模态分别设置独立流,并通过模态间联合注意力(joint attention)完成融合。
RLWRLD表示,对于仅靠视觉难以捕捉的物理信号,如扭矩、触觉,以及长时记忆等信息,模型分别交由独立模块——Physics Module和Memory Module进行处理,从而让单一模型具备“看见、感知、记忆、适应”的能力。
RLWRLD CTO Bae Jae-kyung表示,让不同模态在各自结构中得到充分表达,并在架构层面进行拆分,是RLDX-1的关键。尤其是基于扭矩信号精确捕捉接触瞬间并推断时间轴上的动态变化,这类能力在现有VLA架构中较难实现。
RLWRLD还表示,公司已获得SK Telecom、LG Electronics、CJ Logistics、Lotte、KDDI、ANA Holdings等韩日大型企业投资,并正与10多家韩日大型企业推进基准测试联合开发、PoC(概念验证)及RX(Robotics Transformation)项目。
按计划,RLWRLD将于当地时间13日在美国举行“Dexterity Night”发布活动,邀请来自韩国、美国和日本的人形机器人硬件企业参与,并围绕“为什么机器人产业的下一个拐点在于手”展开圆桌讨论。
RLWRLD CEO Ryu Jung-hee表示,无法被像素记录的信息,收集再多视频也无法呈现;RLDX-1只是公司技术路线上的第一个里程碑。未来,公司将基于已在韩日产业现场验证的数据与技术,与全球人形机器人合作伙伴共同迈向“4D+世界模型”,而此次美国发布活动正是这一长期路线图的起点。
公司还计划以此次美国活动为起点,后续在日本和韩国陆续举行RLDX-1发布活动。