NVIDIAは、写真やスクリーンショット内の対象を高速に検出する人工知能(AI)モデル「LocateAnything」を公開した。一般的な画像だけでなく、アプリケーション画面や文書も学習対象に含めており、UI要素や文字領域の位置特定にも対応する。
LocateAnythingは、高速な物体検出に特化したビジョン・ランゲージ・モデル(VLM)として提供される。NVIDIAが公開したデモ動画では、画面内の対象を素早く識別する様子を確認できる。
従来の物体認識モデルの多くが一般画像を中心に訓練されてきたのに対し、LocateAnythingはアプリのスクリーンショットや文書も学習データに取り込んだ。このため、画像内の物体に加え、アプリのメニューやボタン、テキスト領域といったUI要素も検出できるとしている。
NVIDIAによると、性能比較では既存モデルよりも細かな対象の判別に強みを示した。Qwen3-VLやREX-Omniでは、窓や木片のように繰り返し現れる対象を個別に見分けるのが難しい場面があった一方、LocateAnythingは正確に検出できたという。文字認識の精度についても、両モデルを上回ったと説明している。
想定用途としては、ロボットやPC操作の自動化が挙げられる。画面上の特定ボタンを見つけてクリックしたり、文書から必要項目を抽出したりする処理では、対象の位置を迅速かつ正確に把握する技術が重要になるためだ。NVIDIAも、LocateAnythingはロボット制御やソフトウェアの自動操作に活用できるとしている。
デモアプリも公開している。画像とともに探したい対象を入力し、「Run Inference」を押すと、対象の位置を即座に表示する仕組みだ。例として、写真に「video-game」と入力するとゲームパッケージをまとめて検出し、メモ帳のスクリーンショットでは「ファイル」「編集」「表示」メニューの位置を同時に特定した。
LocateAnythingはオープンモデルとして配布しており、Hugging Face経由でダウンロードできる。デモアプリケーションも別途提供している。
単純な画像認識にとどまらず、画面理解や文書処理まで視野に入れたモデルである点も特徴だ。UI要素とテキストを同時に扱えることから、PCエージェントやソフトウェア自動化分野での活用が見込まれる。