Naver cho biết tìm kiếm AI đang dịch chuyển từ việc chỉ trả lời câu hỏi sang hiểu ý định người dùng và hỗ trợ thực hiện hành động ngay trong quá trình tìm kiếm, như mua sắm, đặt chỗ hay tìm đường. Đây cũng là định hướng của AItab, dịch vụ tìm kiếm AI dạng hội thoại được công ty chính thức ra mắt ngày 25/6.
Ngày 2/7, Naver tổ chức sự kiện Tech Deep Talk tại D2SF, quận Gangnam, Seoul, với chủ đề “Từ khám phá đến hành động, công nghệ AI thế hệ mới phía sau tìm kiếm AI của Naver”. Tại đây, công ty công bố ba trụ cột công nghệ đang được áp dụng cho AItab, gồm mô hình tối ưu theo dịch vụ “Product Native LLM”, hệ thống vận hành AI “harnes engineering” và công nghệ AI đa phương thức dựa trên Smart Lens.
Theo Naver, các công nghệ này xuất phát từ chính đặc thù vận hành của dịch vụ. Trước đây, AI Briefing chỉ bổ sung phần trả lời bằng AI vào một phần trang kết quả tìm kiếm, nên có thể linh hoạt kiểm soát phạm vi hiển thị và chi phí. Trong khi đó, AItab phải tạo phản hồi hội thoại mỗi khi người dùng chọn tab. Với nền tảng có hàng chục triệu lượt tìm kiếm mỗi ngày, công ty phải đồng thời giải bài toán về chất lượng câu trả lời, tốc độ phản hồi, chi phí xử lý và độ ổn định hệ thống.
Kim Sang-beom, Phó chủ tịch phụ trách nền tảng tìm kiếm của Naver, cho biết AItab có cấu trúc mà “mỗi truy vấn đều phải tạo kết quả ngay”. Theo ông, đây là loại dịch vụ khó có thể triển khai nếu không đủ năng lực xử lý lưu lượng lớn và không đủ tự tin về chất lượng đầu ra. Ông cũng nhấn mạnh mục tiêu của Naver là tối ưu hiệu quả vận hành, thay vì chấp nhận chi phí tăng không giới hạn.
◆ Mô hình AI tối ưu theo dịch vụ, học theo luồng tìm kiếm - mua sắm - đặt chỗ
Đối với AItab, Naver sử dụng một mô hình gọn nhẹ, chuyên biệt, được xây dựng trên nền HyperCLOVA X và đặt tên là “Product Native LLM”. Mục tiêu của mô hình này không phải là đạt điểm cao trong các bài đánh giá tri thức tổng quát, mà là vận hành hiệu quả trong các tình huống thực tế như tìm kiếm, so sánh, mua sắm và đặt chỗ.
Lee Gi-chang, lãnh đạo bộ phận mô hình AI hyperscale của Naver Cloud, cho biết HyperCLOVA X trước đây là một LLM đa dụng với nền tri thức rộng và năng lực suy luận mạnh. Tuy nhiên, thế hệ mô hình mới tập trung hơn vào khả năng duy trì hội thoại nhiều lượt trong ngữ cảnh dài, chọn đúng công cụ theo từng tình huống và hoàn tất tác vụ đến bước cuối, thay vì chạy đua để đứng đầu mọi bảng benchmark.
Quá trình phát triển mô hình dựa trên ba yếu tố chính: dữ liệu, kiến trúc và phương pháp huấn luyện. Về dữ liệu, Naver nâng chất lượng bằng cách áp dụng bộ lọc đánh giá tài liệu, đồng thời mở rộng phạm vi dữ liệu từ các tài liệu giáo dục bậc tiểu học và trung học đã tích lũy trước đó sang các nguồn phức tạp hơn như án lệ, bài báo chuyên ngành, cùng nội dung gắn với đời sống như đánh giá sản phẩm, công thức nấu ăn và hướng dẫn game.
Về kiến trúc, công ty đưa vào cấu trúc MoE (Mixture of Experts). Theo Naver, khác với kiến trúc transformer truyền thống vốn làm khối lượng tính toán tăng theo cấp số lớn khi đầu vào dài hơn, MoE đã được cải tiến để chi phí tính toán tăng gần tương ứng với độ dài đầu vào. Nhờ đó, thời gian phản hồi gần như ổn định tới mốc 16.000 token, giúp xử lý được nhiều yêu cầu hơn trên cùng một lượng tài nguyên tính toán và giảm chi phí vận hành.
Ở giai đoạn huấn luyện, Naver tăng tỷ trọng học tăng cường, đồng thời mở rộng tài nguyên tính toán lên hơn gấp đôi so với HyperCLOVA X. Công ty cũng xây dựng môi trường huấn luyện kết nối bộ mô phỏng người dùng với các công cụ tìm kiếm và đặt chỗ thực tế của Naver. Chẳng hạn, với truy vấn gợi ý nhà hàng có không khí tốt ở Gangnam, sau đó bổ sung điều kiện ưu tiên khu Sinsa-dong, lúc 7 giờ và đặt được cho hai người, mô hình sẽ được huấn luyện để lần lượt gọi công cụ tìm kiếm địa điểm và công cụ kiểm tra khả năng đặt bàn.
Naver cũng áp dụng các kỹ thuật nhằm giảm hiện tượng ảo giác của mô hình. Công ty triển khai “Clarify RL”, yêu cầu mô hình không tự suy đoán câu trả lời khi thông tin đầu vào chưa đủ, mà phải hỏi lại để làm rõ. Ví dụ, với câu hỏi “diễn viên chính của bộ phim đó là ai” nhưng không nêu rõ tên phim, mô hình sẽ được huấn luyện để xác nhận lại tác phẩm trước khi trả lời. Theo Naver, với mô hình chuyên biệt có áp dụng kỹ thuật này, tỷ lệ ảo giác giảm tối đa 30 điểm phần trăm so với HyperCLOVA X trong benchmark AA-Omniscience của Artificial Analysis.
Naver đánh giá mô hình theo ba nhóm năng lực gồm năng lực dịch vụ, năng lực cơ bản và năng lực chuyên môn. Trong đó, năng lực dịch vụ phản ánh chất lượng ở các tác vụ tìm kiếm, mua sắm và đặt chỗ đạt 108 điểm, so với mức trung bình 100 điểm của các mô hình toàn cầu cùng phân khúc. Năng lực cơ bản, đo bằng các benchmark công khai như tuân thủ chỉ dẫn và gọi công cụ, đạt 104 điểm. Với năng lực chuyên môn như GPQA dành cho các bài toán khoa học cấp độ tiến sĩ, công ty đặt mục tiêu bằng 85% mức trung bình của đối thủ và cho biết kết quả thực tế đã vượt mục tiêu này.
Lee Gi-chang cho biết chiến lược của Naver là ưu tiên đầu tư cho năng lực phục vụ dịch vụ trước, sau đó mới đến năng lực cơ bản và chuyên môn. Công ty không công bố quy mô tham số cụ thể của mô hình, với lý do không xem kích thước mô hình là mục tiêu cạnh tranh.
◆ Không chỉ cần mô hình mạnh, AItab còn cần hệ thống vận hành để kết nối dịch vụ
Naver cho rằng chỉ có mô hình ngôn ngữ là chưa đủ để hoàn thiện một dịch vụ tìm kiếm AI. Do LLM chỉ được huấn luyện trên dữ liệu trong một giai đoạn nhất định và không nắm được thông tin cập nhật theo thời gian thực, hệ thống cần được kết nối với hạ tầng tìm kiếm và các công cụ dịch vụ. Vai trò này được Naver gọi là “harnes engineering”.
Han Seung-gyun, lãnh đạo dịch vụ tìm kiếm AI của Naver, mô tả harnes engineering là “kỹ năng làm việc” của AI. Theo ông, đây là tập hợp công nghệ và hệ thống vận hành giúp khai thác tối đa năng lực của mô hình, đồng thời bảo đảm mô hình hoạt động đúng theo yêu cầu của từng dịch vụ.
Theo Naver, khi nhận truy vấn, AItab sẽ đánh giá liệu yêu cầu đó có thể được trả lời một cách an toàn hay không, đồng thời tóm lược ngữ cảnh hội thoại và ý định người dùng. Sau đó, hệ thống sẽ gọi các công cụ liên quan đến tìm kiếm, mua sắm và địa điểm để tạo câu trả lời, kèm theo các thẻ hành động như đặt chỗ, tìm đường hoặc mua hàng.
Ví dụ, với yêu cầu tìm nhà hàng ở Jeongja-dong để đi liên hoan trong ngày, có chỗ đỗ xe thuận tiện và có thể đặt bàn, hệ thống sẽ tìm danh sách nhà hàng, kiểm tra mức độ thuận tiện về đỗ xe dựa trên đánh giá của người dùng, rồi dùng API đặt chỗ để xác nhận khả năng nhận bàn.
Để vận hành quy trình này hiệu quả hơn, Naver áp dụng kiến trúc phân vai cho SLM thay vì sử dụng một mô hình cỡ lớn duy nhất. Theo cách này, hệ thống được chia thành nhiều mô hình nhỏ với vai trò riêng. Công ty cho biết cách làm này giúp giảm tới 3 lần chi phí vận hành thiết bị ở một số thành phần, đồng thời cải thiện tốc độ phản hồi hơn 2 lần.
Han Seung-gyun lưu ý đây không phải là so sánh với tìm kiếm truyền thống, mà là so với cấu trúc ban đầu ở giai đoạn thiết kế AItab. Hiện thời gian để hiển thị phản hồi đầu tiên trung bình vào khoảng 10 giây, so với mức 20-30 giây trước đó.
Naver cho biết lợi thế cạnh tranh chính của hãng đến từ dữ liệu tìm kiếm tiếng Hàn được tích lũy trong thời gian dài, cùng hệ sinh thái dịch vụ như Blog, Cafe, Shopping và Place.
Trong phần hỏi đáp, khi được hỏi liệu dữ liệu huấn luyện có liên quan đến sự đồng ý của người dùng về dữ liệu cá nhân hay không, Han Seung-gyun cho biết Naver chỉ sử dụng các bài đăng đã được công khai và cho phép tìm kiếm, sau khi trải qua quy trình rà soát nội bộ để chọn ra những nội dung không có vấn đề. Về khả năng đưa quảng cáo vào AItab, ông cho biết hiện công ty chưa có kế hoạch này và vẫn ưu tiên độ tin cậy của câu trả lời.
Đánh giá kết quả sau khi ra mắt chính thức, ông cho biết lượng người dùng đã tăng hơn 3-4 lần so với giai đoạn beta, trong khi mức sử dụng các thẻ hành động của Shopping và Place cũng đi lên. Khi so sánh với các chatbot AI toàn cầu, ông nhận định thế mạnh lớn nhất của Naver là kinh nghiệm tích lũy lâu năm trong xử lý thông tin tiếng Hàn và dữ liệu tìm kiếm. Về khả năng áp dụng giới hạn sử dụng, ông nói hiện chưa có kế hoạch.
◆ Smart Lens được đẩy lên trước ô tìm kiếm, mở rộng AI sang hình ảnh
Trụ cột thứ ba mà Naver nhấn mạnh là công nghệ AI đa phương thức. Công ty đã đưa nút Smart Lens lên vị trí nổi bật ở ô tìm kiếm trên di động và định hướng kết nối tìm kiếm bằng hình ảnh với AItab. Mục tiêu là để AI có thể hiểu đối tượng, bầu không khí và ngữ cảnh trong ảnh hoặc cảnh quay video, từ đó liên kết sang các hành động như tìm kiếm, mua sắm và đặt chỗ.
Yoon Sang-doo, lãnh đạo Future AI Center của Naver, cho biết người dùng hiện không còn chỉ tìm kiếm bằng văn bản. Theo ông, nhu cầu đang chuyển từ câu hỏi “đây là gì” sang các yêu cầu vừa hiểu vừa thực thi, chẳng hạn “tìm sản phẩm tương tự” hoặc “đặt chỗ ở nơi có không khí như thế này”.
Naver cho biết công ty đã liên tục nâng cấp công nghệ tìm kiếm hình ảnh kể từ khi ra mắt Smart Lens vào năm 2017. Đến năm 2022, dịch vụ được mở rộng thành tìm kiếm kết hợp hình ảnh và văn bản. Năm 2025, Smart Lens tiếp tục được kết nối với AI Briefing để hiểu và tóm tắt hình ảnh. Bước tiếp theo là phát triển thành một tác nhân đa phương thức có thể đồng thời hiểu hình ảnh và điều kiện bằng văn bản, rồi kết nối sang hành động cụ thể, chẳng hạn yêu cầu đặt chỗ buổi tối cho bốn người tại khu vực người dùng đang ở, với không khí giống quán cà phê trong video.
Nền tảng kỹ thuật của hướng đi này là embedding đa phương thức, cho phép đưa các dạng dữ liệu khác nhau như hình ảnh và văn bản vào cùng một không gian ngữ nghĩa để AI xử lý đồng thời. Naver cũng giới thiệu công nghệ “MuCo (Multi-turn Contrastive Learning)”, từng được công nhận tại hội nghị thị giác máy tính CVPR. Theo công ty, công nghệ này cho phép mô hình học nhiều câu hỏi nối tiếp trên cùng một hình ảnh theo luồng hội thoại thực tế, nhờ đó không cần xử lý lại ảnh mỗi khi câu hỏi thay đổi mà vẫn duy trì được ngữ cảnh.
Naver cho biết đã xây dựng bộ dữ liệu quy mô 35 triệu để nâng cấp tìm kiếm đa phương thức, đồng thời đạt hiệu năng hàng đầu so với các mô hình cạnh tranh trên những benchmark chính.
Yoon Sang-doo đánh giá công nghệ tìm kiếm thị giác được tích lũy qua Smart Lens chính là nền tảng tạo nên “đôi mắt” để tác nhân AI quan sát thế giới. Theo ông, các hướng mở rộng tiếp theo gồm trợ lý thị giác có thể hiểu màn hình theo thời gian thực, “Computer Use” cho phép AI nhìn và trực tiếp thực hiện thao tác nhấp chuột hoặc nhập liệu trên màn hình, cùng các hướng như world model và robotics dựa trên khả năng hiểu không gian vật lý.
Naver cho biết trong quý III, công ty sẽ liên kết chặt hơn AI Briefing và Smart Lens với AItab, đồng thời bổ sung cả dịch vụ bất động sản vào AItab. Hãng cũng tiết lộ đang chuẩn bị tác nhân dành riêng cho trình duyệt Whale và có kế hoạch ra mắt tác nhân sức khỏe trong năm nay.
Theo Naver, ba trụ cột gồm mô hình, harnes engineering và AI đa phương thức không vận hành tách rời. Nếu mô hình tối ưu theo dịch vụ là “bộ não”, thì harnes engineering là năng lực giúp bộ não đó sử dụng chính xác các công cụ như tìm kiếm, mua sắm và đặt chỗ, còn AI đa phương thức đóng vai trò như “đôi mắt”, mở rộng đầu vào từ văn bản sang hình ảnh. Mục tiêu cuối cùng, theo công ty, là rút ngắn quãng đường từ tìm kiếm đến hành động của người dùng.