Kiến trúc hệ thống ENPIRE. Ảnh: Nvidia

Nvidia vừa giới thiệu ENPIRE, một hệ thống cho phép tác nhân AI viết mã tự tổ chức quá trình huấn luyện trên robot thực mà không cần con người giám sát trực tiếp. Trong thử nghiệm với 8 robot hai tay, hệ thống đạt tỷ lệ thành công 99% trên 4 tác vụ.

Theo Decrypt ngày 17/6 theo giờ địa phương, Nvidia đã công bố nghiên cứu này cùng Carnegie Mellon University và UC Berkeley.

ENPIRE được thiết kế theo hai giai đoạn. Ở bước đầu, con người chỉ can thiệp một lần để thiết lập quy trình “reset”, đưa không gian làm việc về trạng thái ban đầu, đồng thời xây dựng hàm thưởng dựa trên video từ camera nhằm đánh giá kết quả tác vụ.

Sau đó, tác nhân AI tự tìm tài liệu nghiên cứu, lựa chọn ý tưởng, quyết định phương pháp học phù hợp giữa học bắt chước, học tăng cường hoặc cách tiếp cận dựa trên quy tắc, rồi tự viết mã và kiểm thử trực tiếp trên robot. Toàn bộ vòng lặp này diễn ra mà không cần con người theo dõi hay can thiệp thêm.

Điểm cốt lõi của ENPIRE nằm ở việc tác nhân AI viết mã trực tiếp điều phối toàn bộ quá trình học của robot. Trước đó, các tác nhân như Codex của OpenAI, Claude Code của Anthropic hay Kimi Code của Moonshot đã có thể tự động lặp lại quy trình viết mã, kiểm thử và chỉnh sửa, nhưng chủ yếu vẫn diễn ra trong môi trường màn hình.

Nvidia cho biết đã triển khai 8 robot hai tay tại phòng thí nghiệm GEAR Lab. Mỗi trạm được trang bị phần cứng, máy tính và một tác nhân viết mã riêng, đồng thời chia sẻ kết quả học qua Git. Khi một robot tìm ra cách làm hiệu quả hơn, kết quả đó có thể nhanh chóng được áp dụng cho toàn bộ hệ thống chỉ sau vài phút.

Trong thử nghiệm, các robot hoàn thành các tác vụ như đưa chốt vào lỗ 4 mm, lắp card đồ họa và cắt dây rút. Trên 4 tác vụ trong môi trường thực, hệ thống đạt tỷ lệ thành công 99%. Riêng nhiệm vụ đưa chốt vào lỗ cho độ chính xác còn cao hơn thao tác trực tiếp của con người.

Tốc độ học cũng tăng lên khi số lượng robot được mở rộng. Nvidia cho biết khi tăng từ 1 lên 8 robot, thời gian để thành thạo tác vụ Push-T giảm từ khoảng 5 giờ xuống còn 2 giờ. Với nhiệm vụ đưa chốt vào lỗ, thời gian giảm từ hơn 90 phút xuống khoảng 40 phút.

Tuy nhiên, hãng cũng thừa nhận một hạn chế là chi phí token tăng nhanh hơn mức thời gian tiết kiệm được.

Jim Fan, lãnh đạo nghiên cứu AI của Nvidia và đồng dẫn dắt dự án tại GEAR Lab, cho biết đây là nỗ lực nhằm lần đầu đưa AutoResearch ra thế giới vật lý. Theo ông, nhóm nghiên cứu đã giao cho tác nhân quyền truy cập nhiều robot, tài nguyên GPU cùng ngân sách token lớn, với mục tiêu giải quyết tác vụ nhanh nhất có thể và giữ robot hoạt động liên tục.

Dù vậy, kết quả trong mô phỏng không phải lúc nào cũng chuyển đổi hiệu quả sang môi trường thực. Cả ba tác nhân viết mã đều giải được tác vụ Push-T trong mô phỏng, nhưng khi chuyển sang robot thật, 2 trong số 3 tác nhân thất bại do điều kiện môi trường khác với mô phỏng.

Nvidia cũng thử nghiệm ENPIRE trên RoboCasa, một bộ benchmark mô phỏng. Trong kịch bản nhà bếp của RoboCasa, hệ thống này cho hiệu năng cao hơn mô hình end-to-end GR00T của Nvidia và tác nhân dạng công cụ CaP-X, vốn bỏ qua quy trình AutoResearch.

Theo Nvidia, ENPIRE là bước phát triển tiếp theo của Eureka, dự án hãng ra mắt năm 2023. Nếu Eureka dừng ở khả năng để mô hình ngôn ngữ viết hàm thưởng cho robot trong môi trường mô phỏng, thì ENPIRE mở rộng cơ chế tự cải thiện lặp sang phần cứng thực. Tác nhân không chỉ tạo hàm thưởng mà còn tham gia thiết kế thí nghiệm, chỉnh sửa mã và kiểm chứng kết quả.

Cuộc đua AI cho robot cũng đang tăng tốc. Cùng tuần, Alibaba công bố Qwen-Robot Suite gồm 3 mô hình nền tảng cho di chuyển, thao tác và mô phỏng vật lý.

Bài viết nhận định trong khi Alibaba tập trung vào “bộ não phần mềm” cho các robot mà hãng không trực tiếp sản xuất, Nvidia lại theo đuổi mục tiêu tự động hóa toàn bộ vòng lặp nghiên cứu trên phần cứng do hãng sở hữu. Điểm chung là robot thực đang trở thành mặt trận cạnh tranh tiếp theo của các tác nhân AI viết mã.

Từ khóa

#Nvidia #ENPIRE #robot hai tay #trí tuệ nhân tạo #tác nhân AI viết mã #Carnegie Mellon University #UC Berkeley #GEAR Lab
Copyright © DigitalToday. All rights reserved. Unauthorized reproduction and redistribution are prohibited.