NVIDIA发布了目标检测视觉语言模型(VLM)LocateAnything,主打高速定位能力。与多数主要面向自然图像训练的目标识别模型不同,LocateAnything不仅可处理照片,还覆盖应用界面截图和文档场景,能够识别物体、UI元素以及文本区域。
据海外媒体Gigazine当地时间5月29日报道,NVIDIA将LocateAnything定义为一款面向高速目标检测的视觉语言模型。官方演示显示,该模型可在屏幕内容中快速锁定目标,并完成位置标注。
从训练数据构成来看,LocateAnything并未局限于普通图片,而是将应用截图和文档一并纳入训练。这也意味着,模型除了识别图像中的实体目标外,还能定位应用中的菜单、按钮以及文档中的文本区域等界面元素。
在性能对比方面,NVIDIA表示,LocateAnything在重复目标的细粒度区分上表现更强。按照官方披露的对比结果,Qwen3-VL和REX-Omni在区分窗户、木片等重复出现的目标时存在一定局限,而LocateAnything能够更准确地逐一检出;在文本识别表现上,该模型也优于上述两款产品。
应用层面,机器人控制和PC自动化被视为LocateAnything的重要落地场景。无论是在屏幕中定位特定按钮并执行点击,还是从文档中提取所需信息,都依赖模型快速、准确地获取目标位置。NVIDIA也表示,该模型可用于机器人控制和软件自动化等领域。
在实际演示中,用户上传图像并输入目标内容后,点击“Run Inference”,系统便会立即标出相应位置。以官方示例来看,当用户在一张照片中输入“video-game”后,画面中的游戏包装会被全部检出;在记事本截图中,“文件”“编辑”“显示”等菜单位置也可被同时识别。
在发布方式上,NVIDIA已将LocateAnything以开源模型形式提供,用户可通过Hugging Face下载模型,同时使用单独提供的演示应用。
随着模型进一步具备界面理解和文档处理能力,LocateAnything的应用范围正从单纯的图像识别延伸至更复杂的交互场景。由于其能够同时处理UI元素和文本信息,未来在PC智能体和软件自动化市场中的应用空间也有望进一步扩大。
NVIDIA还在社交平台表示,研究团队相关CVPR2026论文目前位列Hugging Face趋势榜第一。该公司将LocateAnything描述为一款重新思考边界框预测方式的视觉语言检测模型,面向AI智能体与机器人场景,强调“足够快地定位目标”的能力。