フランスのAIスタートアップH Companyは、画面を読み取り、クリックや入力、アプリ間の作業まで実行できるAIモデル「Holo3」を発表した。オープンソース版「Holo3-35B-A3B」はHugging Faceで無償公開している。4月9日付でGigazineが報じている。
Holo3は、Web、デスクトップ、モバイル環境で動作する大規模ビジョン言語モデル(VLM)。画面の内容を認識し、ボタン操作やフォーム入力などを実行できるよう設計した。
単純なクリック自動化にとどまらず、複数アプリをまたぐ業務にも対応する。例えば、PDFから機器の価格情報を抽出し、従業員ごとの予算残額と照合したうえで、承認または差し戻しのメールを送るといった使い方を想定している。
PDF、スプレッドシート、メールを横断して文書を読み取り、計算し、情報を伝達した後も、作業の状態を保持したまま次のステップを継続できるという。
オープンソース版のHolo3-35B-A3Bは、「Qwen3.5-35B-A3B」をベースに微調整したモデルだ。Mixture of Experts(MoE)構造を採用し、総パラメータ数は350億、実行時に使うアクティブパラメータ数は30億としている。
モデルは画像とテキストを入力として受け取り、テキストを生成するマルチモーダルAIとして構成した。
学習にはオープンソースのデータセットに加え、AI向けに作成した大規模な操作データや、人手で検証・アノテーションしたデータを用いた。未学習の状況にも対応しやすいよう訓練し、選別した強化学習も組み合わせたとしている。
また、企業向けシステムに近いUIや操作環境を、コード生成エージェントで自動構築する「Synthetic Environment Factory」も用意した。実際の業務に近い操作を学習させるためだという。
ベンチマーク結果も明らかにした。Holo3-35B-A3Bは、国際標準ベンチマーク「OSWorld-Verified」で77.8%を記録した。
上位モデル「Holo3-122B-A10B」は、同ベンチマークで78.85%だった。総パラメータ数は1220億、アクティブパラメータ数は100億としている。
H Companyはあわせて、自社ベンチマーク「H Corporate Benchmark」も提示した。電子商取引、業務ソフトウェア、コラボレーション、複数アプリ連携の4分野486課題で構成し、単一アプリ内で完結する短い作業から、複数アプリをまたぐ長いワークフローまで含むという。
提供形態では、無料枠でHolo3-35B-A3BをAPI経由で利用でき、リクエスト上限は毎分10回。Holo3-122B-A10Bは有料枠のみで提供する。