Naver、対話型AI検索「AIタブ」を支える中核3技術を公開

写真=Naver。7月2日の「AI検索テック・ディープトーク」で発表するNaver Cloudのイ・ギチャン理事

Naverは7月2日、対話型AI検索サービス「AIタブ」に導入した中核技術を公開した。柱となるのは、サービス向けに最適化したLLM、運用基盤の「ハーネスエンジニアリング」、スマートレンズと連携するマルチモーダル技術の3つ。検索結果の提示にとどまらず、購買や予約、経路案内といった実行までつなぐ検索体験の実現を目指す。

同社はソウル・江南のD2SFでテック・ディープトークを開催し、「探索から実行まで、次世代AI技術がつくるNaver AI検索」をテーマに技術の詳細を紹介した。AIタブは6月25日に正式提供を開始した対話型AI検索サービスで、従来の検索が文書や情報を探す役割を担ってきたのに対し、利用者の意図を把握して次の行動まで支援する点を特徴とする。

こうした技術が必要になった背景には、AIタブのサービス構造がある。先行提供していた「AIブリーフィング」は検索結果の一部にAI回答を表示する形式で、表示範囲やコストを調整しやすかった。一方、AIタブは利用者がタブを開くたびに対話型の回答を返す必要がある。

Naverは、1日に数千万人が利用する検索基盤でこの仕組みを維持するには、回答品質だけでなく、応答速度、処理コスト、安定性を同時に満たさなければならないとしている。

検索プラットフォーム部門のキム・サンボム部門長は「AIタブは、利用者が結果を見たいと思って開いた際に、必ず対話型の回答を提示する構造だ」と説明。「膨大なトラフィックを処理しつつ、品質にも一定の自信がなければ本格投入は難しい」と述べた。

その上で「コストを無制限にかけられるわけではない。効率化を突き詰めた結果が、きょう紹介するモデル、ハーネスエンジニアリング、マルチモーダルの3つだ」と語った。

◆サービスに最適化したAIモデル　検索・購入・予約の流れを学習

NaverはAIタブ向けに、既存のHyperCLOVA Xを基盤とした軽量の特化モデルを採用した。社内ではこれを「プロダクト・ネイティブLLM」と呼ぶ。汎用知識のベンチマークで高得点を狙うだけでなく、検索や比較、予約といった実際の利用フローで機能するよう設計したモデルという位置付けだ。

Naver CloudでハイパースケールAIモデルを担当するイ・ギチャン理事は、「従来のHyperCLOVA Xは幅広い知識と推論能力を備えた汎用LLMだった」とした上で、「次世代モデルは、長い会話文脈の中でマルチターン対話を継続し、状況に応じたツールを選択しながら、利用者が望むタスクを最後まで完遂することに重点を置いた」と説明した。

さらに「すべてのベンチマークで1位を取ることが目標ではない。実サービスの現場で最もよく機能するモデルを作ることが目標だ」と述べた。

モデル開発は、データ、アーキテクチャ、学習方式の3軸で進めた。データ面では文書品質フィルターで学習データの質を高めたほか、これまで蓄積してきた初中等教育レベルの教材文書に加え、裁判例や専門論文といった高難度文書、商品レビュー、レシピ、ゲーム攻略情報など、実生活での活用度が高い文書まで学習対象を広げた。

アーキテクチャ面ではMoE（Mixture of Experts）構造を導入した。入力が長くなるほど計算量が二乗で増える従来のTransformer構造とは異なり、計算量が入力長に比例するよう改善したという。

その結果、1万6000トークンの区間でも応答時間をほぼ一定に保てるようになり、同じ計算資源で処理できるリクエスト数が増え、運用コストの低減にもつながったとしている。

学習段階では強化学習の比重も高めた。計算資源は従来のHyperCLOVA X比で2倍以上に拡大し、ユーザーシミュレーターとNaverの実際の検索・予約ツールを連携させた学習環境を構築した。

例えば、利用者が「江南で雰囲気の良い店を勧めて」と尋ねた後に、「新沙洞中心で、19時に2人で予約できる場所」といった条件を追加すると、モデルがプレイス検索と予約可否確認のツールを順に呼び出すよう学習させる仕組みだ。

ハルシネーションを抑える学習手法も導入した。回答に必要な情報が不足している場合は推測で返答せず、追加条件を聞き返す「Clarify RL」を適用した。

例えば「そのドラマの主演俳優は誰？」のように肝心の情報が欠けた質問に対し、特定作品を推測して答えるのではなく、まずどのドラマかを確認するよう学習させたという。Naverによると、この技術を適用した特化モデルはArtificial Analysisの「AA-Omniscience」ベンチマークで、従来のHyperCLOVA Xに比べてハルシネーション比率が最大30ポイント低下した。

同社はモデル性能を「サービス」「基本」「専門」の3グループに分けて評価した。検索、購入、予約などサービス品質を反映する「サービス能力」は、グローバル同級モデル平均を100点とした場合に108点を記録した。

指示順守やツール呼び出しなど、公的ベンチマークで測る「基本能力」は104点だった。博士課程レベルの科学問題を扱うGPQAなどの「専門能力」は、競合平均比85％を目標に設定し、これを上回ったとしている。

イ理事は「最も重視しているのはサービス能力で、次に基本能力、専門能力の順に投資する戦略だ」と説明した。一方、モデルの具体的なパラメータ規模については、「モデルサイズ自体を競争目標にはしていない」として明らかにしなかった。

◆高性能モデルだけでは不十分　検索・ショッピング・プレイスをつなぐ運用基盤

Naverは、高性能なモデルだけではサービスは完成しないとする。言語モデルは特定時点までのデータで学習しているため、最新情報に対応するには検索インフラや各種サービスツールとの接続が不可欠だ。この役割を担うのが「ハーネスエンジニアリング」である。

AI検索サービスのハン・スンギュンリーダーは、これをAIの「仕事力」にたとえ、「モデルの能力を最大限に引き出しつつ、サービス要件に合わせて動作させる技術と運用体制だ」と定義した。

AIタブは質問を受けると、まず安全に回答できるリクエストかどうかを判断する。続いて会話文脈と利用者の意図を整理し、必要に応じて検索、ショッピング、プレイスなどのツールを呼び出して回答を構成する。予約や経路案内、購入といったアクションカードも合わせて提示する。

例えば「きょう亭子洞で会食する。駐車しやすくて予約できる店を探して」という質問に対しては、候補の店舗を抽出し、レビューで駐車のしやすさを確認し、さらに予約APIで空き状況まで確認する流れで処理するという。

このプロセスを効率化するため、Naverは「分業型SLM」構造を採用した。単一の巨大モデルで全工程を処理するのではなく、役割ごとに小さなモデルを分けて使う方式で、一部コンポーネントのインフラ運用コストを最大3分の1に圧縮し、応答速度も2倍以上改善したとしている。

ただし、比較対象は既存の一般検索ではなく、AIタブの初期設計時の構造だ。ハンリーダーは「既存のNaver検索より効率的という意味ではない」とした上で、「AI検索サービスを作り始めた当初に使っていた大規模モデルと比べて、3倍以上改善したということだ」と説明した。

応答速度については、「社内指標では最初の回答が出るまで平均10秒程度かかるが、初期設計時の20〜30秒に比べると約2倍の改善になる」と明らかにした。

Naverは競争力の源泉として、長年蓄積してきた韓国語検索データに加え、ブログ、カフェ、ショッピング、プレイスなどのサービス資産を挙げた。

質疑応答では、政策面に関する質問も出た。ハンリーダーは学習データでの個人情報同意の有無を問われ、「全体公開され、検索が許可された投稿を対象に、社内での検討を経て問題のない文章のみを活用している」と答えた。

AIタブへの広告導入については「現時点で広告執行の計画はない」とし、回答の信頼性を優先していると説明した。

正式提供後の成果については、「ベータ版と比べて利用者は3〜4倍以上に増え、ショッピングやプレイスのアクションカード利用も伸びている」と述べた。

グローバルAIチャットボットに対する競争力については、長年蓄積してきた韓国語情報と検索データの運用ノウハウを最大の強みとして挙げた。利用量制限の導入可否については「まだその計画はない」としている。

◆スマートレンズを前面に　画像へ広がるAI検索

第3の柱はマルチモーダル技術だ。Naverはモバイル検索ボックスの前面にスマートレンズのボタンを配置し、画像ベースの検索をAIタブと連携させる方向性を示した。利用者が写真や動画の一場面を見せると、AIが対象物や雰囲気、文脈を理解し、検索やショッピング、予約などにつなげることを狙う。

Naver Future AI Centerのユン・サンドゥリーダーは「人々はもはやテキストだけを入力しているわけではない」と指摘。「『これは何か』を知りたいだけでなく、『これに似た商品を探して』『こんな雰囲気の場所を予約して』のように、理解と実行を同時に求めるようになっている」と述べた。

Naverは2017年にスマートレンズの提供を始めて以降、画像検索技術を高度化してきた。2022年には画像とテキストを組み合わせた複合検索へ、2025年にはAIブリーフィングと連動して画像を理解・要約する段階へと進化したという。

今後は「この動画のカフェと似た雰囲気の場所を、自宅近くで夕方に4人予約して」といった要望に対し、画像とテキストの条件を同時に理解し、実行までつなぐマルチモーダルエージェントへの拡張を構想している。

その基盤となるのがマルチモーダル埋め込みだ。画像とテキストのように形式の異なる情報を同じ意味空間に配置し、AIが一体的に理解できるようにする技術である。

Naverは、グローバルなコンピュータビジョン学会CVPRで成果が認められた「MuCo（Multi-turn Contrastive Learning）」も紹介した。1枚の画像に対する複数の質問の流れを実際の対話として学習し、質問が変わるたびに画像を再処理しなくても文脈を維持できる技術だという。

また、マルチモーダル検索の高度化に向けて3500万件規模のデータセットを構築し、主要ベンチマークで競合モデル比トップ水準の性能を記録したと発表した。

ユンリーダーは「スマートレンズで蓄積した視覚検索技術は、AIエージェントが世界を見る目を作る中核技術だ」と述べた。カメラのリアルタイム映像を理解するビジュアルアシスタント、画面を直接見てクリックや入力を実行する「Computer Use」、物理空間理解に基づくワールドモデルやロボティクスなど、AIエージェントの展開先は多岐にわたるとの見方を示した。

Naverは第3四半期中に、AIブリーフィングとスマートレンズをAIタブとより密接に連携させるほか、不動産サービスもAIタブに接続する計画だ。Whaleブラウザ専用エージェントや、年内のヘルスエージェント投入も予告した。

同社は、今回公開したモデル、ハーネスエンジニアリング、マルチモーダル技術はそれぞれ独立して機能するものではないとしている。サービスに最適化したモデルが「脳」だとすれば、ハーネスエンジニアリングは検索やショッピング、予約といったツールを正確に使いこなすための運用基盤であり、マルチモーダルはテキスト中心だった入力を画像へと広げる「目」に当たるという。

Naverはこの3軸を通じて、利用者が求める情報を見つけ、実際の行動に移すまでの時間を短縮していく方針だ。

Hojeong Lee lhj@d-today.co.kr

キーワード