画像=H Company。Holo3は画面認識に加え、複数アプリをまたぐ作業の実行にも対応するのが特徴だ。

フランスのAIスタートアップH Companyは、画面を読み取り、クリックや入力、アプリ間の作業まで実行できるAIモデル「Holo3」を発表した。オープンソース版「Holo3-35B-A3B」はHugging Faceで無償公開している。4月9日付でGigazineが報じている。

Holo3は、Web、デスクトップ、モバイル環境で動作する大規模ビジョン言語モデル(VLM)。画面の内容を認識し、ボタン操作やフォーム入力などを実行できるよう設計した。

単純なクリック自動化にとどまらず、複数アプリをまたぐ業務にも対応する。例えば、PDFから機器の価格情報を抽出し、従業員ごとの予算残額と照合したうえで、承認または差し戻しのメールを送るといった使い方を想定している。

PDF、スプレッドシート、メールを横断して文書を読み取り、計算し、情報を伝達した後も、作業の状態を保持したまま次のステップを継続できるという。

オープンソース版のHolo3-35B-A3Bは、「Qwen3.5-35B-A3B」をベースに微調整したモデルだ。Mixture of Experts(MoE)構造を採用し、総パラメータ数は350億、実行時に使うアクティブパラメータ数は30億としている。

モデルは画像とテキストを入力として受け取り、テキストを生成するマルチモーダルAIとして構成した。

学習にはオープンソースのデータセットに加え、AI向けに作成した大規模な操作データや、人手で検証・アノテーションしたデータを用いた。未学習の状況にも対応しやすいよう訓練し、選別した強化学習も組み合わせたとしている。

また、企業向けシステムに近いUIや操作環境を、コード生成エージェントで自動構築する「Synthetic Environment Factory」も用意した。実際の業務に近い操作を学習させるためだという。

ベンチマーク結果も明らかにした。Holo3-35B-A3Bは、国際標準ベンチマーク「OSWorld-Verified」で77.8%を記録した。

上位モデル「Holo3-122B-A10B」は、同ベンチマークで78.85%だった。総パラメータ数は1220億、アクティブパラメータ数は100億としている。

H Companyはあわせて、自社ベンチマーク「H Corporate Benchmark」も提示した。電子商取引、業務ソフトウェア、コラボレーション、複数アプリ連携の4分野486課題で構成し、単一アプリ内で完結する短い作業から、複数アプリをまたぐ長いワークフローまで含むという。

提供形態では、無料枠でHolo3-35B-A3BをAPI経由で利用でき、リクエスト上限は毎分10回。Holo3-122B-A10Bは有料枠のみで提供する。

キーワード

#H Company #Holo3 #AIエージェント #大規模ビジョン言語モデル #MoE #Hugging Face #OSWorld-Verified
Copyright © DigitalToday. All rights reserved. Unauthorized reproduction and redistribution are prohibited.