Google đang đưa AI vào trung tâm chiến lược cải tổ công cụ tìm kiếm, nhưng AI Overview lại liên tiếp để lộ lỗi ở những tác vụ ngôn ngữ rất cơ bản, làm dấy lên tranh cãi về độ tin cậy của tìm kiếm bằng AI.
Ngày 27/5 (giờ địa phương), TechCrunch cho biết AI Overview của Google đã đánh vần sai chính tên “Google”, trả lời nhầm số chữ cái P, đồng thời mô tả sai cách đánh vần của từ “poop”.
Hệ thống này cũng viết sai từ “journalism” thành “j-o-u-r-n-a-d-i-s-m”, đồng thời đếm sai số chữ cái P trong họ của Tổng thống Mỹ, khi hiển thị chuỗi “t-r-p-u-m”. Những lỗi này cho thấy công cụ vẫn gặp vấn đề ngay ở tầng xử lý ngôn ngữ nền tảng.
Lỗi cũng xuất hiện trong quá trình tra cứu từ vựng. Thông thường, khi người dùng tìm một từ, AI Overview sẽ hiển thị định nghĩa theo dạng từ điển.
Tuy nhiên, với từ “disregard”, hệ thống không đưa ra định nghĩa mà lại phản hồi như một chatbot: “Được rồi. Nếu có câu hỏi mới, hãy cho tôi biết”.
Google cho biết việc đếm số ký tự trong một từ là hạn chế đã được biết đến của các mô hình ngôn ngữ lớn (LLM), và công ty đang tiến hành khắc phục.
Vấn đề không chỉ nằm ở lỗi tính năng, mà còn làm dấy lên tranh cãi rộng hơn về độ tin cậy của tìm kiếm AI. Công cụ tìm kiếm vốn được kỳ vọng cung cấp thông tin chính xác. Nhưng khi AI đứng ra tóm tắt và trả lời, những phản hồi thiếu nhất quán có thể khiến người dùng bối rối về mức độ đáng tin của kết quả.
Khi ngay cả các truy vấn thông tin cơ bản cũng cho kết quả sai lệch, giới chuyên gia tiếp tục phân tích nguyên nhân. Theo họ, hiện tượng này có liên quan đến giới hạn cấu trúc của LLM.
Khác với con người đọc văn bản theo từng ký tự, LLM xử lý ngôn ngữ theo token rồi chuyển chúng thành dữ liệu số. Vì vậy, mô hình khó xác định ranh giới từ một cách rõ ràng, và việc xử lý hoàn hảo ở cấp ký tự không hề dễ dàng, bất kể token được cấu hình theo cách nào.
Sheridan Feucht, nghiên cứu sinh tại Đại học Northeastern, nhận định: “Sẽ không có bộ token hóa hoàn hảo”, đồng thời cho rằng việc chia văn bản thành những đơn vị nhỏ hơn là một đặc tính mang tính cấu trúc của mô hình.
Dù vậy, cũng có ý kiến cho rằng hạn chế này không đồng nghĩa với việc LLM có vấn đề về hiệu năng tổng thể. Trên thực tế, các mô hình này vẫn hữu ích trong nhiều lĩnh vực khác như viết mã hoặc giải các bài toán phức tạp.
Tuy nhiên, sự việc lần này một lần nữa cho thấy dù AI phát triển đến đâu, người dùng cũng không nên tuyệt đối tin vào kết quả do AI tạo ra.