Nvidia ra mắt LocateAnything, mô hình AI định vị đối tượng trên ảnh, màn hình và tài liệu

LocateAnything, mô hình AI định vị đối tượng do Nvidia phát triển. Ảnh: Nvidia

Nvidia vừa giới thiệu LocateAnything, mô hình trí tuệ nhân tạo có khả năng xác định nhanh vị trí đối tượng trên ảnh, ảnh chụp màn hình và tài liệu. Khác với nhiều mô hình chỉ tập trung vào ảnh đời thực, LocateAnything còn được huấn luyện trên màn hình ứng dụng và tài liệu, nhờ đó có thể nhận diện cả các thành phần giao diện lẫn văn bản.

Theo Gigazine, ngày 29/5/2026 (giờ địa phương), Nvidia công bố LocateAnything là một mô hình thị giác - ngôn ngữ (VLM) được tối ưu cho bài toán định vị đối tượng với tốc độ cao.

Điểm đáng chú ý nhất của mô hình nằm ở tốc độ xử lý và phạm vi ứng dụng. Trong video demo do Nvidia công bố, hệ thống có thể nhanh chóng xác định các đối tượng xuất hiện trên màn hình. Nếu nhiều mô hình nhận dạng đối tượng hiện nay chủ yếu được huấn luyện trên ảnh chụp đời thực, LocateAnything mở rộng tập dữ liệu sang cả ảnh chụp màn hình ứng dụng và tài liệu. Nhờ đó, mô hình không chỉ tìm được vật thể trong ảnh mà còn xác định vị trí menu, nút bấm, vùng văn bản và các thành phần giao diện khác.

Nvidia cho biết trong các phép so sánh hiệu năng, LocateAnything cho khả năng phân biệt đối tượng chi tiết hơn một số mô hình hiện có. Theo hãng, trong khi Qwen3-VL và REX-Omni bộc lộ hạn chế khi tách riêng các đối tượng lặp lại như cửa sổ hoặc các mảnh gỗ, LocateAnything cho kết quả chính xác hơn. Nvidia cũng khẳng định mô hình này đạt độ chính xác cao hơn hai đối thủ trên ở tác vụ nhận diện ký tự.

Ứng dụng đáng chú ý của LocateAnything nằm ở robot và tự động hóa PC. Những tác vụ như tìm đúng nút cần bấm trên màn hình hay trích xuất mục cần thiết trong tài liệu đều đòi hỏi công nghệ định vị đối tượng nhanh và chính xác. Nvidia cho biết mô hình có thể được sử dụng cho điều khiển robot cũng như tự động hóa thao tác phần mềm.

Hãng đồng thời công bố một bản demo để thử nghiệm thực tế. Người dùng chỉ cần nhập đối tượng cần tìm, tải ảnh lên, rồi nhấn “Run Inference” để hệ thống hiển thị ngay vị trí tương ứng. Trong ví dụ được Nvidia đưa ra, khi nhập “video-game”, hệ thống nhận diện toàn bộ các hộp trò chơi trong ảnh; còn với ảnh chụp màn hình Notepad, các trình đơn như “File”, “Edit” và “View” cũng được xác định cùng lúc.

Về cách phát hành, Nvidia cung cấp LocateAnything dưới dạng mô hình mở và cho phép tải về trên Hugging Face. Ứng dụng demo cũng được phát hành riêng.

Sự xuất hiện của LocateAnything cho thấy xu hướng mở rộng từ nhận diện hình ảnh đơn thuần sang hiểu nội dung trên màn hình và xử lý tài liệu. Khả năng xử lý đồng thời các thành phần giao diện và văn bản được kỳ vọng sẽ giúp tăng tính ứng dụng trong các tác nhân PC và thị trường tự động hóa phần mềm.

Nvidia cho biết nghiên cứu về LocateAnything đã được nhóm phát triển giới thiệu trong khuôn khổ CVPR 2026, đồng thời mô tả đây là mô hình phát hiện thị giác - ngôn ngữ được thiết kế lại theo hướng dự đoán bounding box, nhằm phục vụ tốt hơn cho các tác nhân AI và robot.

Jinju Hong hongjj@d-today.co.kr

Nvidia ra mắt LocateAnything, mô hình AI định vị đối tượng trên ảnh, màn hình và tài liệu

Mô hình VLM có thể xác định nhanh vật thể, thành phần giao diện và văn bản

Đang tạo...

Tóm tắt AI

Nvidia giới thiệu LocateAnything, mô hình thị giác - ngôn ngữ có khả năng định vị đối tượng với tốc độ cao trên ảnh, ảnh chụp màn hình và tài liệu, hướng tới ứng dụng cho robot và tự động hóa phần mềm.

Từ khóa