写真=Miso Information Technology

Miso Information Technologyは3月17日、VLM(Vision Language Model)を活用した第3世代OCRソリューション「ViiX」の提供を開始した。病院の医療記録や製造、建設分野の文書などを理解してデータ化し、構造化や検索、分析、業務自動化に活用できるという。

同社によると、ViiXは産業現場で扱う多様な文書をVLMで理解し、データへ変換するドメイン特化型OCR。文書のレイアウトや書体、空間構造、文脈まで解析し、単なる文字認識にとどまらず、文書データの構造化から検索・分析、業務自動化までを支えるAIベースの文書処理環境を提供する。

従来の第1世代OCRは文字認識が中心で、第2世代OCRはディープラーニングを活用した表領域の認識やフィールド抽出などに対応してきた。一方、新たな文書様式が追加されるたびに再学習が必要となり、例外対応のコストが膨らむ課題があった。

これに対し同社は、ViiXでは文書の文脈と構造を同時に分析することで、キー・バリューの抽出精度を高めたと説明している。

Miso Information Technologyのナム・サンド代表は「ViiXは、当社が過去20年間にわたり産業現場で蓄積してきたドメイン知識を、AI技術によって体系化したものだ」とコメントした。さらに「文書を単に読む段階を超え、そこに含まれるビジネス文脈を理解し、現場で業務自動化を実装する『文書AI』の時代を切り開いていく」と述べた。

キーワード

#OCR #VLM #LLM #人工知能 #文書AI #Miso Information Technology #ViiX
Copyright © DigitalToday. All rights reserved. Unauthorized reproduction and redistribution are prohibited.