Naver详解“AI标签”核心技术：从回答走向执行

7月2日，在“AI搜索技术深度分享”活动上，Naver Cloud高算力AI模型负责人Lee Ki-chang发言。图片来源：Naver

与传统搜索主要匹配问题并返回文档、信息不同，AI搜索更强调对用户意图的理解，并将结果进一步连接到购物、预约、路线等后续操作。Naver表示，这正是其于上月25日正式上线的对话式AI搜索服务“AI标签”的核心定位。

7月2日，Naver在首尔江南D2SF举行主题为“从探索到执行：下一代AI技术打造的Naver AI搜索”的技术分享会，首次系统披露“AI标签”背后的三项核心能力，分别是面向AI标签优化的“产品原生LLM”、负责打通服务调用链路的“Harness工程”，以及基于Smart Lens的多模态能力。

Naver指出，这一技术组合与AI标签本身的服务形态直接相关。此前推出的AI简报，仅在部分搜索结果页面叠加AI回答，在覆盖范围和成本之间仍有较大的调节空间；而AI标签在用户进入该标签后，需要对每一次提问持续提供对话式回答。面对日均数千万级搜索请求，这意味着平台必须同时解决回答质量、响应速度、处理成本和服务稳定性等问题。

Naver搜索平台部门负责人Kim Sang-beom表示，AI标签属于“用户每次提问都必须返回结果”的服务结构。如果没有足够的流量承载能力，也无法在质量稳定的前提下运行，就很难正式上线。在成本投入不可能无限扩张的情况下，团队最终将重点放在模型、Harness工程和多模态三条主线上。

面向服务场景打造专用模型：学习搜索、购买与预约流程

Naver在AI标签中引入了基于HyperCLOVA X（HCX）的轻量化专用模型，并将其定义为“产品原生LLM”。Naver表示，这一模型并不以通用知识基准成绩为唯一目标，而是围绕真实搜索、比价、预约等场景进行设计，更强调在具体服务流程中的稳定表现。

Naver Cloud高算力AI模型负责人Lee Ki-chang表示，过去的HyperCLOVA X属于具备广泛知识和推理能力的通用LLM；而新一代模型更关注在长上下文中持续进行多轮对话、按场景选择工具，并最终完成用户任务。其强调，团队追求的并不是在所有基准测试中排名第一，而是在真实服务场景中做到最优表现。

模型开发主要围绕数据、架构和训练方式三方面推进。在数据层面，Naver通过文档质量过滤提升训练数据质量；在既有中小学教育文档基础上，进一步纳入法院判例、专业论文等高难度文档，以及商品评论、食谱、游戏攻略等生活化内容，以扩大覆盖范围。

在模型架构方面，Naver引入MoE（Mixture of Experts）结构，使计算开销不再像传统Transformer那样随输入长度呈平方增长，而是改为与输入长度近似成比例增长。Naver称，这一设计使模型在最长1.6万tokens的区间内，时延基本保持稳定，并在相同算力条件下处理更多请求，从而降低运营成本。

在训练方式上，团队提高了强化学习的比重。Naver表示，其投入的计算资源较HCX扩大两倍以上，并构建了一个结合用户模拟器以及Naver真实搜索、预约工具的训练环境。举例来看，当用户先提出“推荐江南氛围好的餐厅”，随后再补充“以新沙洞为主、19点可订2人”时，模型会依次调用地点搜索和可预约性检查工具来完成任务。

为降低幻觉问题，Naver还引入“Clarify RL”训练方式。对于无法直接确定答案的问题，模型不会随意作答，而是优先追问补充条件。以“那部剧的主演是谁”为例，模型不会自行猜测具体作品，而会先确认用户所指的是哪一部剧。Naver称，采用该技术的专用模型在Artificial Analysis的AA-Omniscience基准下，幻觉比例较既有HCX最多下降30个百分点。

Naver将模型能力拆分为服务能力、基础能力和专业能力三类进行评估。其中，反映搜索、购买、预约等服务质量的“服务能力”得分为108分，高于全球同类模型100分的平均值；以指令遵循、工具调用等外部权威基准衡量的“基础能力”为104分。至于面向博士级科学问题的GPQA等“专业能力”，Naver原本设定的目标是达到竞争对手平均水平的85%，实际结果已超过这一目标。

Lee Ki-chang表示，公司的投入策略是“优先强化服务能力，其次是基础能力，最后是专业能力”。至于模型参数规模，Naver称不会将模型体量本身作为竞争目标，因此暂不对外公开。

不止于模型：打通搜索、购物和地点服务的执行能力

Naver认为，仅靠语言模型无法构成完整服务。由于语言模型基于特定时间点之前的数据进行训练，难以及时掌握最新信息，因此必须与搜索基础设施以及各类服务工具联动，而承担这一角色的正是“Harness工程”。

Naver AI搜索服务负责人Han Seung-gyun将其概括为AI的“执行能力”，并定义为：在尽可能释放模型能力的同时，让整个系统按照服务要求稳定运行的技术与运营体系。

Naver介绍，AI标签在接收到问题后，会先判断请求是否属于可安全回答的范围，再结合对话上下文识别用户意图，随后调用搜索、购物、地点等所需工具生成回答，并同步给出预约、路线、购买等行动卡片。

例如，当用户提出“今天在Jeongja-dong聚餐，找个停车方便且能预约的餐厅”时，系统会先筛选候选餐厅，再通过评论信息判断停车是否便利，最后调用预约API核验可订情况，并将结果以可操作卡片形式展示给用户。

为提升效率，Naver采用了“分工式SLM”架构，即不依赖单一的大模型，而是按不同角色拆分为多个小模型协同处理。Naver称，这一方案使部分组件的算力成本最多降低3倍，响应速度提升两倍以上。不过，公司强调，这一对比对象并非传统搜索，而是AI标签早期方案中所采用的大模型架构。Han Seung-gyun表示，这并不意味着其效率高于既有Naver搜索，而是相较最初用于构建AI搜索服务的结构，整体效率提升了3倍以上。

其还透露，目前内部从用户发起请求到返回首个回答的平均耗时约为10秒，较早期设计阶段的20至30秒缩短了约一半。

Naver将其竞争力归因于长期积累的韩语搜索数据，以及博客、社区、购物、地点等服务资产。

在问答环节，现场也出现了关于政策与合规的问题。对于训练数据是否取得个人信息同意的提问，Han Seung-gyun回应称，团队仅使用“已公开且允许搜索”的帖子，并经过内部审查后，仅采纳确认不存在问题的内容。至于AI标签未来是否会引入广告，其表示目前没有相关投放计划，现阶段将优先保障回答的可信度。

谈及正式上线后的表现，Han Seung-gyun称，与测试阶段相比，AI标签用户数已增长3至4倍以上，购物和地点类行动卡片的使用量也在持续提升。对于相较全球AI聊天机器人有何优势的问题，其表示，Naver长期积累的韩语信息和搜索数据，是公司最大的核心优势。至于是否设置使用量限制，Naver称目前暂无相关计划。

Smart Lens前置到移动搜索框：AI搜索向图像输入延伸

第三条主线是多模态。Naver表示，已将Smart Lens按钮前置到移动端搜索框，并推动图像搜索与AI标签联动。用户提交照片或视频画面后，AI不仅可以理解目标、氛围和语境，还能进一步连接搜索、购物、预约等后续操作。

Naver Future AI Center负责人Yoon Sang-doo表示，用户输入方式已不再局限于文本，需求也正从“这是什么”扩展到“帮我找类似商品”“帮我预约这种氛围的地方”等既要求理解、又要求执行的新场景。

Naver回顾称，自2017年推出Smart Lens以来，公司持续提升图像搜索能力：2022年升级为支持图像与文本混合输入的复合搜索；2025年又与AI简报联动，发展到能够理解并摘要图像内容。下一步，公司计划将其扩展为多模态智能体，支持同时理解图像和文本条件，并进一步推动执行。比如，用户可以提出“按这段视频里的咖啡馆氛围，在我家附近订晚上的4人座”这样的复合需求。

为支撑这一方向，Naver引入了多模态嵌入技术，将图像、文本等不同形态的信息映射到同一语义空间，以便AI进行统一理解。公司还介绍了在国际计算机视觉会议CVPR上获得认可的MuCo（Multi-turn Contrastive Learning）技术。该技术通过学习单张图像下连续多轮提问的真实对话流，使系统在问题变化时无需反复处理图像，也能持续保持上下文理解。

Naver称，公司已为多模态搜索构建了3500万规模的数据集，并在主要基准测试中取得与对标模型相当的最高水平表现。

Yoon Sang-doo表示，Smart Lens长期积累的视觉搜索能力，将成为AI智能体“看世界的眼睛”。其还提到，AI智能体未来的潜在延展方向包括：通过摄像头理解实时画面的视觉助手、能够“看屏并完成点击与输入”的Computer Use能力，以及基于物理空间理解的世界模型和机器人等。

Naver表示，第三季度将进一步加强AI标签与AI简报、Smart Lens之间的联动，并计划把房产服务接入AI标签。同时，公司还预告将推出面向Whale浏览器的专属智能体，并计划在年内发布健康智能体。

Naver强调，此次披露的产品原生LLM、Harness工程和多模态能力并非彼此独立运行：面向服务优化的模型相当于“大脑”，Harness工程负责让这一“大脑”准确调用搜索、购物、预约等工具，而多模态则充当将输入从文本扩展到图像的“眼睛”。公司希望通过这三条主线，进一步缩短用户从找到结果到完成操作的路径。

Hojeong Lee lhj@d-today.co.kr

关键词