与传统搜索主要匹配问题并返回文档、信息不同,AI搜索更强调对用户意图的理解,并将结果进一步连接到购物、预约、路线等后续操作。Naver表示,这正是其于上月25日正式上线的对话式AI搜索服务“AI标签”的核心定位。
7月2日,Naver在首尔江南D2SF举行主题为“从探索到执行:下一代AI技术打造的Naver AI搜索”的技术分享会,首次系统披露“AI标签”背后的三项核心能力,分别是面向AI标签优化的“产品原生LLM”、负责打通服务调用链路的“Harness工程”,以及基于Smart Lens的多模态能力。
Naver指出,这一技术组合与AI标签本身的服务形态直接相关。此前推出的AI简报,仅在部分搜索结果页面叠加AI回答,在覆盖范围和成本之间仍有较大的调节空间;而AI标签在用户进入该标签后,需要对每一次提问持续提供对话式回答。面对日均数千万级搜索请求,这意味着平台必须同时解决回答质量、响应速度、处理成本和服务稳定性等问题。
Naver搜索平台部门负责人Kim Sang-beom表示,AI标签属于“用户每次提问都必须返回结果”的服务结构。如果没有足够的流量承载能力,也无法在质量稳定的前提下运行,就很难正式上线。在成本投入不可能无限扩张的情况下,团队最终将重点放在模型、Harness工程和多模态三条主线上。
面向服务场景打造专用模型:学习搜索、购买与预约流程
Naver在AI标签中引入了基于HyperCLOVA X(HCX)的轻量化专用模型,并将其定义为“产品原生LLM”。Naver表示,这一模型并不以通用知识基准成绩为唯一目标,而是围绕真实搜索、比价、预约等场景进行设计,更强调在具体服务流程中的稳定表现。
Naver Cloud高算力AI模型负责人Lee Ki-chang表示,过去的HyperCLOVA X属于具备广泛知识和推理能力的通用LLM;而新一代模型更关注在长上下文中持续进行多轮对话、按场景选择工具,并最终完成用户任务。其强调,团队追求的并不是在所有基准测试中排名第一,而是在真实服务场景中做到最优表现。
模型开发主要围绕数据、架构和训练方式三方面推进。在数据层面,Naver通过文档质量过滤提升训练数据质量;在既有中小学教育文档基础上,进一步纳入法院判例、专业论文等高难度文档,以及商品评论、食谱、游戏攻略等生活化内容,以扩大覆盖范围。
在模型架构方面,Naver引入MoE(Mixture of Experts)结构,使计算开销不再像传统Transformer那样随输入长度呈平方增长,而是改为与输入长度近似成比例增长。Naver称,这一设计使模型在最长1.6万tokens的区间内,时延基本保持稳定,并在相同算力条件下处理更多请求,从而降低运营成本。
在训练方式上,团队提高了强化学习的比重。Naver表示,其投入的计算资源较HCX扩大两倍以上,并构建了一个结合用户模拟器以及Naver真实搜索、预约工具的训练环境。举例来看,当用户先提出“推荐江南氛围好的餐厅”,随后再补充“以新沙洞为主、19点可订2人”时,模型会依次调用地点搜索和可预约性检查工具来完成任务。
为降低幻觉问题,Naver还引入“Clarify RL”训练方式。对于无法直接确定答案的问题,模型不会随意作答,而是优先追问补充条件。以“那部剧的主演是谁”为例,模型不会自行猜测具体作品,而会先确认用户所指的是哪一部剧。Naver称,采用该技术的专用模型在Artificial Analysis的AA-Omniscience基准下,幻觉比例较既有HCX最多下降30个百分点。
Naver将模型能力拆分为服务能力、基础能力和专业能力三类进行评估。其中,反映搜索、购买、预约等服务质量的“服务能力”得分为108分,高于全球同类模型100分的平均值;以指令遵循、工具调用等外部权威基准衡量的“基础能力”为104分。至于面向博士级科学问题的GPQA等“专业能力”,Naver原本设定的目标是达到竞争对手平均水平的85%,实际结果已超过这一目标。
Lee Ki-chang表示,公司的投入策略是“优先强化服务能力,其次是基础能力,最后是专业能力”。至于模型参数规模,Naver称不会将模型体量本身作为竞争目标,因此暂不对外公开。
不止于模型:打通搜索、购物和地点服务的执行能力
Naver认为,仅靠语言模型无法构成完整服务。由于语言模型基于特定时间点之前的数据进行训练,难以及时掌握最新信息,因此必须与搜索基础设施以及各类服务工具联动,而承担这一角色的正是“Harness工程”。
Naver AI搜索服务负责人Han Seung-gyun将其概括为AI的“执行能力”,并定义为:在尽可能释放模型能力的同时,让整个系统按照服务要求稳定运行的技术与运营体系。
Naver介绍,AI标签在接收到问题后,会先判断请求是否属于可安全回答的范围,再结合对话上下文识别用户意图,随后调用搜索、购物、地点等所需工具生成回答,并同步给出预约、路线、购买等行动卡片。
例如,当用户提出“今天在Jeongja-dong聚餐,找个停车方便且能预约的餐厅”时,系统会先筛选候选餐厅,再通过评论信息判断停车是否便利,最后调用预约API核验可订情况,并将结果以可操作卡片形式展示给用户。
为提升效率,Naver采用了“分工式SLM”架构,即不依赖单一的大模型,而是按不同角色拆分为多个小模型协同处理。Naver称,这一方案使部分组件的算力成本最多降低3倍,响应速度提升两倍以上。不过,公司强调,这一对比对象并非传统搜索,而是AI标签早期方案中所采用的大模型架构。Han Seung-gyun表示,这并不意味着其效率高于既有Naver搜索,而是相较最初用于构建AI搜索服务的结构,整体效率提升了3倍以上。
其还透露,目前内部从用户发起请求到返回首个回答的平均耗时约为10秒,较早期设计阶段的20至30秒缩短了约一半。
Naver将其竞争力归因于长期积累的韩语搜索数据,以及博客、社区、购物、地点等服务资产。
在问答环节,现场也出现了关于政策与合规的问题。对于训练数据是否取得个人信息同意的提问,Han Seung-gyun回应称,团队仅使用“已公开且允许搜索”的帖子,并经过内部审查后,仅采纳确认不存在问题的内容。至于AI标签未来是否会引入广告,其表示目前没有相关投放计划,现阶段将优先保障回答的可信度。
谈及正式上线后的表现,Han Seung-gyun称,与测试阶段相比,AI标签用户数已增长3至4倍以上,购物和地点类行动卡片的使用量也在持续提升。对于相较全球AI聊天机器人有何优势的问题,其表示,Naver长期积累的韩语信息和搜索数据,是公司最大的核心优势。至于是否设置使用量限制,Naver称目前暂无相关计划。
Smart Lens前置到移动搜索框:AI搜索向图像输入延伸
第三条主线是多模态。Naver表示,已将Smart Lens按钮前置到移动端搜索框,并推动图像搜索与AI标签联动。用户提交照片或视频画面后,AI不仅可以理解目标、氛围和语境,还能进一步连接搜索、购物、预约等后续操作。
Naver Future AI Center负责人Yoon Sang-doo表示,用户输入方式已不再局限于文本,需求也正从“这是什么”扩展到“帮我找类似商品”“帮我预约这种氛围的地方”等既要求理解、又要求执行的新场景。
Naver回顾称,自2017年推出Smart Lens以来,公司持续提升图像搜索能力:2022年升级为支持图像与文本混合输入的复合搜索;2025年又与AI简报联动,发展到能够理解并摘要图像内容。下一步,公司计划将其扩展为多模态智能体,支持同时理解图像和文本条件,并进一步推动执行。比如,用户可以提出“按这段视频里的咖啡馆氛围,在我家附近订晚上的4人座”这样的复合需求。
为支撑这一方向,Naver引入了多模态嵌入技术,将图像、文本等不同形态的信息映射到同一语义空间,以便AI进行统一理解。公司还介绍了在国际计算机视觉会议CVPR上获得认可的MuCo(Multi-turn Contrastive Learning)技术。该技术通过学习单张图像下连续多轮提问的真实对话流,使系统在问题变化时无需反复处理图像,也能持续保持上下文理解。
Naver称,公司已为多模态搜索构建了3500万规模的数据集,并在主要基准测试中取得与对标模型相当的最高水平表现。
Yoon Sang-doo表示,Smart Lens长期积累的视觉搜索能力,将成为AI智能体“看世界的眼睛”。其还提到,AI智能体未来的潜在延展方向包括:通过摄像头理解实时画面的视觉助手、能够“看屏并完成点击与输入”的Computer Use能力,以及基于物理空间理解的世界模型和机器人等。
Naver表示,第三季度将进一步加强AI标签与AI简报、Smart Lens之间的联动,并计划把房产服务接入AI标签。同时,公司还预告将推出面向Whale浏览器的专属智能体,并计划在年内发布健康智能体。
Naver强调,此次披露的产品原生LLM、Harness工程和多模态能力并非彼此独立运行:面向服务优化的模型相当于“大脑”,Harness工程负责让这一“大脑”准确调用搜索、购物、预约等工具,而多模态则充当将输入从文本扩展到图像的“眼睛”。公司希望通过这三条主线,进一步缩短用户从找到结果到完成操作的路径。