Dinoticia表示,将通过自动化技术解决企业AI项目中长期存在的非结构化文档处理难题。公司24日宣布,正式推出Seahorse Cloud SaaS,可在统一环境中完成文档上传、解析、结构化和向量化等全流程处理。
在企业将生成式AI和AI Agent导入业务场景时,首先需要把PDF、图片和各类文档等非结构化数据转化为可供AI处理的形式。由于数据格式多样、结构不统一,企业往往需要额外搭建数据管道,或依赖人工进行预处理。
Seahorse Cloud采用托管式服务模式,整合了基于向量数据库的RAGOps(检索增强生成运营)和面向AI Agent的AgentOps能力。企业无需单独建设基础设施,即可在同一环境中完成向量数据处理、RAG流程构建以及Agent构建与运营。
在文档解析环节,该服务引入基于VLM(视觉语言模型)的版式分析技术,可识别页面结构,并区分表格、图片等区域。随后结合OCR(光学字符识别)和基于LLM(大语言模型)的文本清洗流程,按语义单元完成结构化处理。公司表示,系统可对表格进行单独检测和还原,以减少信息损失并提升问答准确度;同时也支持将流程图等图像类文档转化为可检索文本,便于AI Agent进行上下文检索。
Seahorse Cloud基于Amazon Web Services(AWS)环境提供服务,用户可通过官网和控制台直接接入使用。公司称,该服务可在保留现有云基础设施的前提下接入,面向首批用户还将提供体验额度。
Dinoticia相关人士表示,企业可在统一的SaaS环境中处理大规模非结构化文档,并在此基础上提炼数据驱动的智能洞察。