Ảnh: Shutterstock

Cuộc đua phát triển AI cho robot đang tập trung vào hai hướng tiếp cận lớn là VLA và world model, trong bối cảnh giới đầu tư tại Thung lũng Silicon bắt đầu dành nhiều sự chú ý hơn cho world model do hoài nghi về độ tin cậy của VLA trong môi trường vận hành thực tế.

Theo The Information, VLA (vision-language-action) là hướng phát triển dựa trên các mô hình ngôn ngữ lớn (LLM). Trong khi đó, world model được huấn luyện chủ yếu từ video để dự đoán những gì có thể xảy ra trong thế giới thực khi robot thực hiện một hành động.

Ở nhóm VLA, Nvidia Groot và mô hình pi của Physical Intelligence là hai cái tên đang thu hút nhiều quan tâm.

Microsoft cũng đi theo hướng này với Rho-alpha, mô hình AI vật lý được công bố hồi tháng 1. Hãng cho biết mục tiêu của Rho-alpha là giúp các hệ thống robot thích nghi linh hoạt hơn với môi trường vận hành.

Theo Microsoft, trong nhiều thập kỷ, robot hoạt động hiệu quả chủ yếu trong những môi trường có tính dự báo cao và quy trình được xác định chặt chẽ, như dây chuyền lắp ráp. Sự xuất hiện của các mô hình VLA cho phép robot từng bước nhận biết môi trường, suy luận và phối hợp với con người ngay cả trong các bối cảnh phức tạp, ít cấu trúc và không được định sẵn.

Tuy nhiên, The Information cho biết trong thời gian gần đây, world model đang thu hút sự quan tâm ngày càng lớn tại Thung lũng Silicon.

Tháng 6, Luma, một startup AI về video, đã mở phòng thí nghiệm AI vật lý tập trung vào world model cho robot. Startup robot hình người 1X cũng thông báo thành lập viện nghiên cứu world model riêng.

Những người ủng hộ hướng đi này kỳ vọng world model có thể hiểu các quy luật vật lý ở mức sâu hơn, từ đó dự đoán những tình huống ngoài đời thực như đồ vật bị rơi hoặc vỡ. Trên cơ sở đó, mô hình có thể tạo ra các môi trường mô phỏng để robot học tập và đóng vai trò như bộ não AI cho robot.

Marshall Eber, trưởng khoa Khoa học Máy tính của Đại học Carnegie Mellon, chỉ ra giới hạn của các mô hình ngôn ngữ hiện nay khi chatbot vẫn không thể tự nhấc một cốc cà phê. Ông nhận định việc điều khiển bàn tay và tương tác vật lý với một chiếc cốc “phức tạp hơn nhiều so với dự đoán từ tiếp theo”.

Ở chiều ngược lại, nhiều ý kiến cho rằng world model vẫn thường xuyên mắc lỗi, nên chưa thể mô phỏng chính xác thế giới thực. Dù vậy, theo The Information, công nghệ này vẫn ngày càng được chú ý trong bối cảnh nhà đầu tư hạ kỳ vọng đối với VLA.

Bài viết cho biết các mô hình VLA như Nvidia Groot hay pi của Physical Intelligence đã đạt được một số kết quả ban đầu nhờ tận dụng năng lực nền tảng và khả năng hiểu ngôn ngữ tự nhiên của mô hình ngôn ngữ. Tuy nhiên, sau khoảng hai năm phát triển, VLA nhìn chung vẫn chưa đủ độ tin cậy để vận hành robot trong môi trường sản xuất thực tế.

Rajat Bhageria, CEO Chef Robotics, công ty cung cấp robot phục vụ khâu chuẩn bị suất ăn cho bếp công nghiệp, cho biết doanh nghiệp này từng thử nghiệm phương án dùng VLA để vận hành robot. Tuy vậy, về dài hạn, ông đánh giá world model có nhiều triển vọng hơn. Theo Bhageria, VLA hiện vẫn “quá chậm và thiếu tin cậy”, chưa sẵn sàng để triển khai trên diện rộng.

Bhageria cũng nhắc tới world model mà Waymo phát triển bằng cách tận dụng Genie 3 của Google DeepMind. Theo ông, mô hình này có thể mô phỏng những tình huống giao thông cực kỳ hiếm gặp, như lốc xoáy hoặc “voi trên đường”.

Một số ý kiến cũng cho rằng sẽ thiếu thực tế nếu chỉ nhìn cục diện AI cho robot dưới góc đối đầu giữa world model và VLA.

The Information cho biết Cosmos 3, world model của Nvidia, đang kết hợp cả hai yếu tố world model và VLA. Mô hình này không chỉ phân tích văn bản và hình ảnh mà còn có thể tạo video có tính chân thực về mặt vật lý.

Gần đây, một nhóm nhà nghiên cứu robot nhấn mạnh rằng “robot cần nhiều hơn VLA và world model”, đồng thời cho rằng cuộc tranh luận xem mô hình nào tốt hơn đang bỏ lỡ vấn đề cốt lõi. Theo nhóm này, thách thức lớn hơn nằm ở cách chuyển đổi dữ liệu vật lý, chẳng hạn video trên Internet, thành dạng mà robot có thể học một cách hiệu quả.

Từ khóa

#trí tuệ nhân tạo #AI cho robot #VLA #world model #Nvidia #Microsoft
Copyright © DigitalToday. All rights reserved. Unauthorized reproduction and redistribution are prohibited.