DeepSeek-R1 có tỷ lệ ảo giác cao gấp gần 4 lần DeepSeek-V3

Dữ liệu cho thấy năng lực suy luận mạnh hơn chưa chắc đi kèm độ tin cậy cao hơn. Ảnh: Shutterstock

Mô hình suy luận mới DeepSeek-R1 của startup AI Trung Quốc DeepSeek được ghi nhận có tỷ lệ ảo giác cao hơn đáng kể so với phiên bản trước, trong bối cảnh các mô hình AI thiên về suy luận đang tăng tốc phổ biến. Diễn biến này cũng làm dấy lên lo ngại về rủi ro đối với thị trường AI agent gắn với tiền mã hóa.

Theo BeInCrypto ngày 11/5/2026 (giờ địa phương), công ty đánh giá AI Vectara đã sử dụng thước đo ảo giác HHEM 2.1 để so sánh DeepSeek-R1 và DeepSeek-V3. Kết quả cho thấy DeepSeek-R1 có tỷ lệ ảo giác 14,3%, cao gấp gần 4 lần mức 3,9% của DeepSeek-V3.

Vectara cho biết đã kiểm chứng chéo kết quả bằng phương pháp FACTS của Google. Phân tích cho thấy ở phần lớn kịch bản thử nghiệm, DeepSeek-R1 có xu hướng tự bổ sung những nội dung không có trong nguồn hoặc tạo ra thông tin thiếu căn cứ.

Theo Vectara, vấn đề cốt lõi của DeepSeek-R1 nằm ở xu hướng bổ sung thông tin quá mức. Mô hình này thường thêm bối cảnh hoặc lời giải thích không tồn tại trong văn bản gốc nhằm hỗ trợ người dùng. Dù từng câu riêng lẻ có thể nghe hợp lý, việc tự liên kết các chi tiết không có trong nguồn vẫn bị xếp vào dạng ảo giác.

Giới công nghệ cho rằng đây không chỉ là vấn đề về chất lượng mô hình, mà còn có thể gây ra rủi ro tài chính thực tế. Lý do là nhiều dự án AI agent trên thị trường tiền mã hóa hiện kết hợp mô hình ngôn ngữ lớn (LLM) với công cụ giao dịch và hệ thống tự động hóa.

Thị trường hiện đã xuất hiện nhiều dự án token AI agent như Virtuals Protocol, ai16z và AIXBT. Các dịch vụ này có thể tự động đăng bài trên mạng xã hội, phân tích token, tạo tín hiệu đầu tư, thực hiện giao dịch và viết bình luận thị trường. Nếu mô hình tạo ra thông tin sai, sai lệch đó có thể dẫn thẳng tới các hành động on-chain.

Chẳng hạn, nếu AI dựng lên một “sự thật” về quan hệ đối tác không tồn tại, đưa ra địa chỉ hợp đồng sai hoặc dữ liệu giá thiếu chính xác, quyết định đầu tư có thể bị ảnh hưởng trực tiếp. Với các mô hình lập kế hoạch hành động theo suy luận nhiều bước, sai sót ở giai đoạn đầu còn có thể kéo theo lỗi trong toàn bộ quá trình ra quyết định sau đó.

AIXBT từng quảng bá 416 token và ghi nhận mức lợi suất trung bình 19%, nhưng đồng thời cũng bộc lộ rủi ro mang tính cấu trúc khi sai lệch trong phán đoán của mô hình có thể truyền trực tiếp tới người dùng.

Các nhà phân tích cho rằng đây không phải vấn đề riêng của DeepSeek. Theo họ, kỹ thuật học tăng cường (RL) nhằm nâng cao năng lực suy luận có thể làm tăng mức độ tự tin và xu hướng mở rộng câu trả lời của mô hình, nhưng đồng thời cũng khiến thông tin sai được tạo ra một cách dứt khoát hơn.

Yann LeCun, nhà khoa học AI trưởng của Meta, cũng xem ảo giác của LLM là một giới hạn mang tính cấu trúc. Ông cho rằng với kiến trúc LLM tự hồi quy hiện nay, vấn đề ảo giác khó có thể biến mất hoàn toàn.

Dù vậy, một số phòng thí nghiệm AI cho rằng tỷ lệ ảo giác có thể giảm đáng kể nhờ các kỹ thuật như tăng cường truy xuất (RAG), mô hình hậu kiểm hoặc tinh chỉnh. Tuy nhiên, theo các nhà phát triển, trong môi trường vận hành thực tế, hiện tượng này vẫn xảy ra thường xuyên.

Các chuyên gia nhấn mạnh bài toán cốt lõi của ngành AI agent không chỉ nằm ở cuộc đua hiệu năng, mà ở việc xây dựng một cấu trúc vận hành có thể kiểm chứng. Những giải pháp thực tế được nhắc đến gồm tái xác minh đầu ra của mô hình bằng một hệ thống kiểm tra độc lập, hoặc sử dụng mô hình thận trọng hơn ở khâu thực thi tài chính.

Yann LeCun cũng nêu quan điểm rằng ảo giác trong LLM bắt nguồn từ cơ chế dự đoán tự hồi quy. Theo ông, một dạng “AI định hướng mục tiêu” có thể là hướng giải quyết, khi hệ thống lập kế hoạch câu trả lời bằng cách tối ưu một số hàm mục tiêu ngay tại thời điểm suy luận.

Jinju Hong hongjj@d-today.co.kr

DeepSeek-R1 có tỷ lệ ảo giác cao gấp gần 4 lần DeepSeek-V3

Thử nghiệm của Vectara cho thấy năng lực suy luận cao hơn không đồng nghĩa độ tin cậy tốt hơn

Đang tạo...

Tóm tắt AI

Vectara đánh giá DeepSeek-R1 có tỷ lệ ảo giác 14,3%, cao gấp gần 4 lần mức 3,9% của DeepSeek-V3, làm dấy lên lo ngại về rủi ro với các AI agent trong lĩnh vực tiền mã hóa.

Từ khóa