Hancom 23日表示,旗下开源PDF数据提取项目“OpenDataLoader PDF v2.0”已于3月20日登上GitHub全站Trending榜首,并获得Trending徽章。
GitHub Trending榜单反映的是全球开发者近期关注度最高的开源项目。
据Hancom介绍,OpenDataLoader PDF v2.0在3月21日单日新增Stars超过1800个,累计Stars已达7000个,Fork数也突破500个。
OpenDataLoader PDF可将结构复杂的PDF文档拆解为文本、表格、图片等内容,并转换为便于AI处理的数据格式。
PDF是全球AI训练中最常见的文档格式之一,但由于内部结构复杂、数据提取难度较高,长期以来一直被视为AI开发中的主要瓶颈。Hancom于2025年7月与全球PDF技术公司Duallab签署合作备忘录并启动联合开发,于同年9月公开初版,并于今年3月12日发布v2.0。
v2.0采用融合AI解析与直接提取的混合引擎,可在本地环境运行,无需将数据传输至外部服务器。该版本默认提供4类AI插件,包括OCR、表格提取、公式提取和图表分析,并兼容Docling等第三方开源模型。
Hancom CEO Kim Yeon-su表示,此次成绩表明,Hancom文档数据提取技术的成熟度和实用性已在全球开发者社区得到直接验证,也证明了通过多元化应用拓展技术生态的可能性。公司还将切换至Apache 2.0许可证,继续把该项目打造为面向全球企业和开发者、可自由使用与扩展的开放PDF数据平台。
记者信息