图片来源:Miso Information Technology

Miso Information Technology 3月17日宣布,推出基于VLM(Vision Language Model,视觉语言模型)的第三代OCR解决方案ViiX。

据介绍,ViiX聚焦垂直行业文档处理场景,可对医疗病历以及制造、建筑等行业业务现场产生的各类文档进行理解与解析,并转换为可用数据。

与传统OCR主要停留在文本识别层面不同,ViiX结合LLM(Large Language Model,大语言模型)对文档语义和结构进行分析,能够识别版式、字体、空间结构及上下文信息。在此基础上,系统可将文档内容进行结构化处理,并进一步用于检索、分析和业务自动化。

公司表示,第一代OCR以字符识别为核心;第二代OCR引入深度学习后,已可支持表格区域识别和字段抽取。但在新增文档版式时,往往仍需重新训练模型,异常场景的处理成本也会随之上升。

Miso Information Technology称,作为第三代OCR产品,ViiX通过同时解析文档语义与结构,提升了键值信息抽取的准确率。

Miso Information Technology CEO Nam Sang-do表示,ViiX是公司过去20年在产业一线积累的行业知识与AI技术体系化结合的成果。公司将推动文档处理从“读懂文档”迈向“理解文档中的业务语境”,并在实际业务场景中推进自动化应用,开启文档AI时代。

关键词

#Miso Information Technology #ViiX #OCR #VLM #LLM #文档理解 #键值信息抽取 #业务自动化
版权所有 © DigitalToday。未经授权禁止转载或传播。