Holo3 được phát triển để không chỉ nhận diện nội dung trên màn hình mà còn xử lý tác vụ trên nhiều ứng dụng. Ảnh: H Company

Startup AI H Company của Pháp ngày 9/4 đã công bố Holo3, mô hình có khả năng đọc nội dung trên màn hình, tự nhấp chuột, nhập liệu và thực hiện tác vụ trên nhiều ứng dụng. Theo Gigazine, phiên bản mã nguồn mở Holo3-35B-A3B hiện được cung cấp miễn phí trên Hugging Face.

Holo3 là mô hình thị giác-ngôn ngữ quy mô lớn, hoạt động trên môi trường web, desktop và di động. Mô hình được thiết kế để đọc thông tin hiển thị trên màn hình và tự thực hiện các thao tác phù hợp như bấm nút hoặc điền biểu mẫu.

Không chỉ dừng ở các thao tác đơn lẻ, Holo3 còn có thể xử lý những quy trình làm việc kéo dài qua nhiều ứng dụng. Chẳng hạn, hệ thống có thể trích xuất giá thiết bị từ tệp PDF, đối chiếu với phần ngân sách còn lại của từng nhân viên, rồi gửi email phê duyệt hoặc từ chối.

Mô hình cũng có thể chuyển đổi qua lại giữa PDF, bảng tính và email để đọc tài liệu, tính toán và truyền đạt thông tin, đồng thời duy trì ngữ cảnh công việc để tiếp tục các bước tiếp theo.

Phiên bản mã nguồn mở Holo3-35B-A3B được tinh chỉnh từ Qwen3.5-35B-A3B. Mô hình sử dụng kiến trúc Mixture of Experts (MoE) với tổng cộng 35 tỷ tham số, trong đó 3 tỷ tham số được kích hoạt trong quá trình vận hành.

Holo3-35B-A3B là mô hình AI đa phương thức, nhận đầu vào gồm hình ảnh và văn bản, sau đó tạo đầu ra dưới dạng văn bản.

Dữ liệu huấn luyện của mô hình gồm các bộ dữ liệu mã nguồn mở, dữ liệu thao tác quy mô lớn được tạo tổng hợp cho AI, cùng dữ liệu đã được con người kiểm duyệt và gắn nhãn. H Company cho biết Holo3 được huấn luyện để thích ứng tốt hơn với các tình huống chưa xuất hiện trong quá trình học, đồng thời kết hợp reinforcement learning có chọn lọc.

Công ty cũng phát triển Synthetic Environment Factory, hệ thống tự động tạo môi trường giao diện người dùng và các thao tác gần với hệ thống doanh nghiệp thông qua agent sinh mã, nhằm huấn luyện những quy trình tương tự công việc thực tế.

Về hiệu năng, Holo3-35B-A3B đạt 77,8% trên benchmark quốc tế OSWorld-Verified. Biến thể lớn hơn là Holo3-122B-A10B đạt 78,85% trên cùng benchmark, với tổng 122 tỷ tham số và 10 tỷ tham số kích hoạt.

H Company cũng giới thiệu benchmark nội bộ mang tên H Corporate Benchmark, gồm 486 tác vụ thuộc 4 lĩnh vực: thương mại điện tử, phần mềm làm việc, cộng tác và tích hợp đa ứng dụng. Bộ đánh giá này bao gồm cả tác vụ ngắn trong một ứng dụng lẫn các workflow dài chạy qua nhiều ứng dụng.

Với gói miễn phí, người dùng có thể trải nghiệm Holo3-35B-A3B qua API với giới hạn 10 yêu cầu mỗi phút. Trong khi đó, Holo3-122B-A10B chỉ được cung cấp trong gói trả phí.

Từ khóa

#H Company #Holo3 #AI agent #mô hình thị giác-ngôn ngữ #Hugging Face #OSWorld-Verified
Copyright © DigitalToday. All rights reserved. Unauthorized reproduction and redistribution are prohibited.