Bản demo mô hình VLA của Nota. Ảnh: Nota

Nota, công ty chuyên tinh gọn và tối ưu mô hình trí tuệ nhân tạo, ngày 29/5 cho biết đã tối ưu thành công mô hình thị giác - ngôn ngữ - hành động (VLA) trên thiết bị AI biên Dragonwing IQ-9075 của Qualcomm. Theo công ty, thời gian tạo hành động cho robot giảm khoảng 85,8%, trong khi tổng thời gian suy luận được cải thiện tối đa 7 lần.

VLA là loại mô hình đòi hỏi năng lực tính toán lớn. Mô hình này sử dụng camera và cảm biến để nhận biết môi trường thực, hiểu lệnh của con người và tạo hành động cho robot. Thông thường, VLA được vận hành trên máy chủ GPU, còn khả năng xử lý theo thời gian thực trên thiết bị nhúng vẫn khá hạn chế.

Nota cho biết đã triển khai mô hình VLA SmolVLA 0.45B trên Dragonwing IQ-9075 của Qualcomm và áp dụng một loạt kỹ thuật tối ưu hóa.

Theo đó, công ty không thay đổi các bước nhận diện và hiểu ngữ cảnh, mà tập trung vào công đoạn cuối là tạo hành động cho robot. Nhờ tối ưu suy luận thời gian thực để giảm các phép tính lặp, đồng thời tối ưu đồ thị trên bộ xử lý thần kinh NPU, thời gian xử lý ở phần tạo hành động (Action Head) giảm từ 218 ms xuống 31 ms. Tổng thời gian suy luận cũng được rút từ 505 ms còn 310 ms. Tỷ lệ hoàn thành tác vụ gần như giữ nguyên, từ 86% xuống 85%.

Nota đã công bố kết quả này tại Embedded Vision Summit 2026 diễn ra ở Santa Clara, Mỹ. Tại sự kiện, công ty trình diễn bản demo theo thời gian thực: khi khách tham quan chọn một món đồ, mô hình VLA sau tối ưu sẽ nhận diện vật thể và điều khiển cánh tay robot gắp món đồ đó vào giỏ.

Chae Myung-su, CEO Nota, cho biết AI cần có khả năng quan sát, hiểu môi trường thực và chuyển hóa thành hành động nhanh, ổn định ngay trên thiết bị AI biên. Theo ông, kết quả tối ưu VLA lần này cho thấy công nghệ của Nota có thể trở thành nền tảng cốt lõi trong kỷ nguyên physical AI.

Từ khóa

#Nota #Qualcomm #AI biên #VLA #SmolVLA 0.45B #Dragonwing IQ-9075 #NPU #robot
Copyright © DigitalToday. All rights reserved. Unauthorized reproduction and redistribution are prohibited.