NVIDIA发布目标检测模型LocateAnything：支持图片、界面截图和文档定位

NVIDIA发布了目标检测视觉语言模型（VLM）LocateAnything，主打高速定位能力。与多数主要面向自然图像训练的目标识别模型不同，LocateAnything不仅可处理照片，还覆盖应用界面截图和文档场景，能够识别物体、UI元素以及文本区域。

据海外媒体Gigazine当地时间5月29日报道，NVIDIA将LocateAnything定义为一款面向高速目标检测的视觉语言模型。官方演示显示，该模型可在屏幕内容中快速锁定目标，并完成位置标注。

从训练数据构成来看，LocateAnything并未局限于普通图片，而是将应用截图和文档一并纳入训练。这也意味着，模型除了识别图像中的实体目标外，还能定位应用中的菜单、按钮以及文档中的文本区域等界面元素。

在性能对比方面，NVIDIA表示，LocateAnything在重复目标的细粒度区分上表现更强。按照官方披露的对比结果，Qwen3-VL和REX-Omni在区分窗户、木片等重复出现的目标时存在一定局限，而LocateAnything能够更准确地逐一检出；在文本识别表现上，该模型也优于上述两款产品。

应用层面，机器人控制和PC自动化被视为LocateAnything的重要落地场景。无论是在屏幕中定位特定按钮并执行点击，还是从文档中提取所需信息，都依赖模型快速、准确地获取目标位置。NVIDIA也表示，该模型可用于机器人控制和软件自动化等领域。

在实际演示中，用户上传图像并输入目标内容后，点击“Run Inference”，系统便会立即标出相应位置。以官方示例来看，当用户在一张照片中输入“video-game”后，画面中的游戏包装会被全部检出；在记事本截图中，“文件”“编辑”“显示”等菜单位置也可被同时识别。

在发布方式上，NVIDIA已将LocateAnything以开源模型形式提供，用户可通过Hugging Face下载模型，同时使用单独提供的演示应用。

随着模型进一步具备界面理解和文档处理能力，LocateAnything的应用范围正从单纯的图像识别延伸至更复杂的交互场景。由于其能够同时处理UI元素和文本信息，未来在PC智能体和软件自动化市场中的应用空间也有望进一步扩大。

NVIDIA还在社交平台表示，研究团队相关CVPR2026论文目前位列Hugging Face趋势榜第一。该公司将LocateAnything描述为一款重新思考边界框预测方式的视觉语言检测模型，面向AI智能体与机器人场景，强调“足够快地定位目标”的能力。

Jinju Hong hongjj@d-today.co.kr