Ảnh: RLWRLD

RLWRLD, công ty phát triển AI vật lý, ngày 7/5 công bố RLDX-1, mô hình nền tảng cho robot (Robotics Foundation Model - RFM) do doanh nghiệp tự phát triển.

RLDX-1 được phát hành dưới ba phiên bản, mỗi phiên bản có 8,1 tỷ tham số, gồm checkpoint tiền huấn luyện RLDX-1-PT và hai checkpoint mid-training là RLDX-1-MT-ALLEX và RLDX-1-MT-DROID.

Theo RLWRLD, công ty đồng thời công khai trọng số mô hình, mã huấn luyện và tài liệu kỹ thuật để các nhà nghiên cứu bên ngoài có thể tiếp cận thông qua GitHub và Hugging Face.

Doanh nghiệp cho biết RLDX-1 được phát triển theo định hướng Dexterity-First, tập trung vào việc nâng khả năng thao tác của tay robot 5 ngón có bậc tự do cao, hướng tới mức độ tương đương con người.

Khác với các mô hình VLA (Vision-Language-Action) đa dụng vốn chủ yếu tập trung vào thị giác và ngôn ngữ, RLDX-1 tích hợp trong một mô hình duy nhất nhiều loại tín hiệu gồm thị giác, ngôn ngữ, mô-men xoắn, xúc giác và bộ nhớ tác vụ.

RLWRLD cho biết RLDX-1 đạt kết quả cao hơn các mô hình hiện có như NVIDIA GR00T và pi0 của Physical Intelligence trên 8 bộ benchmark công khai quốc tế.

Trọng tâm công nghệ của mô hình là kiến trúc Multi-Stream Action Transformer (MSAT). Nếu các mô hình VLA truyền thống xử lý chung các tín hiệu như thị giác, ngôn ngữ, hành động, xúc giác và bộ nhớ trong một transformer một luồng, MSAT tách riêng từng luồng cho từng modality trước khi hợp nhất bằng cơ chế joint attention giữa các modality.

Công ty cho biết những tín hiệu vật lý khó nắm bắt chỉ bằng thị giác, như mô-men xoắn, xúc giác và bộ nhớ dài hạn, được xử lý qua các mô-đun riêng gồm Physics Module và Memory Module. Cách tiếp cận này giúp mô hình đồng thời có thể “see”, “feel”, “remember” và “adapt”.

Bae Jae-kyung, CTO của RLWRLD, cho biết cốt lõi của RLDX-1 nằm ở việc tách kiến trúc để mỗi modality được biểu đạt đầy đủ. Theo ông, khả năng xác định chính xác thời điểm tiếp xúc thông qua tín hiệu mô-men xoắn và suy luận biến thiên động theo thời gian là những bài toán mà các mô hình VLA hiện nay còn gặp hạn chế về cấu trúc.

RLWRLD cho biết đã huy động vốn từ các tập đoàn lớn tại Hàn Quốc và Nhật Bản như SK Telecom, LG Electronics, CJ Logistics, Lotte, KDDI và ANA Holdings.

Công ty cũng đang hợp tác với hơn 10 tập đoàn của Hàn Quốc và Nhật Bản để phát triển benchmark, triển khai các dự án PoC (proof of concept) và RX (Robotics Transformation).

Theo kế hoạch, sự kiện ra mắt “Dexterity Night” sẽ diễn ra tại Mỹ vào ngày 13/5, với sự tham gia của các doanh nghiệp phần cứng humanoid đến từ Hàn Quốc, Mỹ và Nhật Bản. Tại đây, các bên cũng sẽ tổ chức tọa đàm với chủ đề “Vì sao bàn tay là bước ngoặt tiếp theo của ngành robot”.

Ryu Jung-hee, CEO của RLWRLD, cho rằng những thông tin không nằm trong pixel sẽ không thể xuất hiện chỉ bằng cách thu thập thêm video. Ông nhấn mạnh RLDX-1 mới là cột mốc đầu tiên, đồng thời khẳng định đây là điểm khởi đầu cho lộ trình dài hướng tới mô hình thế giới 4D+, dựa trên dữ liệu và công nghệ đã được kiểm chứng tại hiện trường công nghiệp ở Hàn Quốc và Nhật Bản, cùng mạng lưới đối tác humanoid toàn cầu.

Sau sự kiện tại Mỹ, RLWRLD dự kiến tiếp tục tổ chức các đợt ra mắt RLDX-1 tại Nhật Bản và Hàn Quốc.

Từ khóa

#RLWRLD #RLDX-1 #mô hình nền tảng cho robot #Robotics Foundation Model #VLA #MSAT #GitHub #Hugging Face #NVIDIA GR00T
Copyright © DigitalToday. All rights reserved. Unauthorized reproduction and redistribution are prohibited.