Dinoticiaは3月24日、非構造化文書の前処理を自動化するSaaS「Seahorse Cloud」を正式リリースしたと発表した。文書のアップロードから解析、構造化、ベクトル化までの一連の工程を単一環境で処理できるようにし、企業の生成AI導入を支援する。
生成AIやAIエージェントを業務に適用するには、PDFや画像、各種文書といった非構造化データをAIが扱える形に変換する前処理が欠かせない。一方、データ形式がばらばらなため、これまでは個別のデータパイプライン構築や手作業による前処理が必要だった。
Seahorse Cloudは、ベクターデータベース基盤のRAGOpsと、AIエージェント運用機能のAgentOpsを統合したマネージドサービス。追加のインフラを構築せずに、ベクトルデータ処理、RAG構成、エージェントの設計・運用までを同じ環境で進められるとしている。
文書解析には、VLM(Vision Language Model)ベースのレイアウト分析を採用した。ページ構造や表、画像領域を切り分けた後、OCR(光学文字認識)とLLM(大規模言語モデル)によるテキスト整形を経て、文書を意味単位で構造化する。
表データは別途検出・復元することで、情報損失の抑制と質疑応答精度の向上を図った。フローチャートなど画像ベースの文書についてもテキスト変換に対応し、AIエージェントによる文脈検索に活用できるようにした。
サービスはAmazon Web Services(AWS)上で提供する。公式Webサイトと管理コンソールから利用でき、既存のクラウドインフラを維持したまま導入できるという。初期ユーザーには試用クレジットも付与する。
Dinoticiaの関係者は「企業は大量の非構造化文書を統合SaaS環境で処理し、データに基づくインテリジェンスを引き出せる」とコメントした。