Hancom ngày 23/3 cho biết dự án mã nguồn mở OpenDataLoader PDF v2.0 đã vươn lên vị trí số 1 trên bảng GitHub Trending ở tất cả ngôn ngữ lập trình tính đến ngày 20/3.
GitHub Trending là bảng xếp hạng thời gian thực các dự án mã nguồn mở đang thu hút nhiều sự quan tâm nhất từ cộng đồng lập trình viên toàn cầu.
Theo Hancom, chỉ riêng ngày 21/3, OpenDataLoader PDF v2.0 đã tăng hơn 1.800 sao trên GitHub. Tổng số sao hiện đã vượt 7.000, trong khi số lượt fork cũng vượt 500.
OpenDataLoader PDF được phát triển để tách dữ liệu từ các tệp PDF có cấu trúc phức tạp, gồm văn bản, bảng biểu và hình ảnh, sau đó chuyển thành định dạng mà AI có thể xử lý trực tiếp.
Hancom cho biết PDF hiện là một trong những định dạng tài liệu được sử dụng phổ biến nhất trong quá trình huấn luyện AI. Tuy nhiên, cấu trúc nội bộ phức tạp của định dạng này khiến việc trích xuất dữ liệu trở thành một điểm nghẽn lớn trong phát triển AI.
Công ty cho biết đã ký biên bản ghi nhớ với doanh nghiệp công nghệ PDF Duallab vào tháng 7/2025 để bắt đầu đồng phát triển dự án. Bản đầu tiên được công bố vào tháng 9 cùng năm, trước khi phiên bản v2.0 ra mắt ngày 12/3.
Phiên bản v2.0 áp dụng cơ chế lai, kết hợp giữa phương pháp AI và trích xuất trực tiếp. Sản phẩm có thể chạy trong môi trường cục bộ mà không cần gửi dữ liệu lên máy chủ bên ngoài.
Bản cập nhật này cũng tích hợp sẵn 4 tiện ích AI gồm OCR, trích xuất bảng, trích xuất công thức và phân tích biểu đồ. Ngoài ra, nền tảng cũng tương thích với các mô hình AI mã nguồn mở của bên thứ ba như Docling.
CEO Kim Yeon-su cho biết kết quả trên cho thấy công nghệ trích xuất dữ liệu tài liệu của Hancom đã được cộng đồng lập trình viên toàn cầu ghi nhận về mức độ hoàn thiện và khả năng ứng dụng thực tế. Theo ông, công ty sẽ chuyển sang giấy phép Apache 2.0 để phát triển OpenDataLoader PDF thành một nền tảng dữ liệu PDF mở, cho phép doanh nghiệp và nhà phát triển toàn cầu tự do sử dụng và mở rộng.