Ảnh: Miso Information Technology

Miso Information Technology ngày 17/3 ra mắt ViiX, giải pháp nhận dạng ký tự quang học (OCR) thế hệ 3 dựa trên mô hình Vision Language Model (VLM), hướng tới xử lý tài liệu trong các lĩnh vực y tế, sản xuất và xây dựng.

Theo công ty, ViiX là giải pháp OCR chuyên biệt theo từng lĩnh vực, có khả năng sử dụng mô hình ngôn ngữ lớn (LLM) để đọc hiểu và chuyển đổi nhiều loại tài liệu phát sinh tại hiện trường như hồ sơ bệnh án, tài liệu sản xuất và hồ sơ xây dựng thành dữ liệu có thể khai thác.

Giải pháp này được phát triển trên nền tảng công nghệ phân tích bố cục tài liệu, kiểu chữ, cấu trúc không gian và ngữ cảnh. Nhờ đó, ViiX không chỉ dừng ở việc nhận dạng văn bản mà còn có thể cấu trúc hóa tài liệu thành dữ liệu, phục vụ tìm kiếm, phân tích và tự động hóa quy trình xử lý tài liệu bằng AI.

Miso Information Technology cho biết OCR thế hệ 1 chủ yếu tập trung vào nhận dạng ký tự, trong khi OCR thế hệ 2 hỗ trợ nhận diện vùng bảng biểu và trích xuất các trường dữ liệu dựa trên công nghệ học sâu. Tuy nhiên, mỗi khi bổ sung biểu mẫu hoặc loại tài liệu mới, hệ thống lại phải tái huấn luyện, làm tăng chi phí xử lý các trường hợp ngoại lệ.

Với OCR thế hệ 3, công ty cho biết ViiX có thể đồng thời phân tích ngữ cảnh và cấu trúc tài liệu, qua đó nâng độ chính xác của việc trích xuất dữ liệu key-value.

Ông Nam Sang-do, CEO của Miso Information Technology, cho biết ViiX là kết quả của quá trình hệ thống hóa bằng công nghệ AI khối tri thức chuyên ngành mà công ty đã tích lũy suốt 20 năm tại hiện trường. Theo ông, doanh nghiệp đặt mục tiêu mở ra “kỷ nguyên AI tài liệu”, vượt ra ngoài khả năng “đọc” đơn thuần để hiểu bối cảnh kinh doanh trong tài liệu và hiện thực hóa tự động hóa công việc tại hiện trường.

Từ khóa

#OCR #ViiX #VLM #LLM #xử lý tài liệu #tự động hóa
Copyright © DigitalToday. All rights reserved. Unauthorized reproduction and redistribution are prohibited.