ChatGPT, Claude bộc lộ hạn chế trong bài kiểm tra Stroop, hé lộ rào cản trên đường tới AGI

Hiệu năng của LLM, nghiên cứu cho thấy, không thể chỉ đánh giá bằng khả năng ghi nhớ hay tỷ lệ trả lời đúng. Ảnh: Shutterstock

Một nghiên cứu mới cho thấy các mô hình ngôn ngữ lớn (LLM) như ChatGPT và Claude hoạt động kém hơn đáng kể trong bài kiểm tra Stroop, phép thử tâm lý học dùng để đo khả năng chú ý có chọn lọc và kiểm soát điều hành. Theo nhóm nghiên cứu, kết quả này có thể phản ánh một giới hạn mang tính cấu trúc của AI dựa trên kiến trúc transformer hiện nay.

TechRadar đưa tin ngày 4/6 (giờ địa phương), nghiên cứu vừa được công bố trên tạp chí PNAS Nexus. Nhóm tác giả đã dùng bài kiểm tra hiệu ứng Stroop để đánh giá GPT-4o của OpenAI và Claude 3.5 Sonnet của Anthropic.

Hiệu ứng Stroop là một thí nghiệm kinh điển trong tâm lý học nhận thức. Chẳng hạn, khi từ “đỏ” được hiển thị bằng màu xanh, người tham gia phải xử lý hai tín hiệu mâu thuẫn: nghĩa của từ và màu thực tế của chữ. Nếu được yêu cầu trả lời màu chữ thay vì đọc từ, tốc độ phản hồi và độ chính xác thường sẽ giảm.

Trong thử nghiệm này, nhóm nghiên cứu yêu cầu các mô hình AI thực hiện hai nhiệm vụ riêng biệt: đọc từ và xác định màu chữ. Kết quả cho thấy cả hai mô hình đều đạt độ chính xác cao ở nhiệm vụ đọc từ, tương tự con người, nhưng giảm mạnh khi phải xử lý thông tin xung đột giữa từ và màu.

Mức suy giảm càng rõ khi số lượng câu hỏi tăng lên. Với GPT-4o, độ chính xác vào khoảng 91% ở bài kiểm tra 5 câu, nhưng giảm còn 57% ở 10 câu, 22% ở 20 câu và chỉ 15% ở 40 câu.

Claude 3.5 Sonnet cho kết quả nhỉnh hơn, nhưng vẫn đi theo cùng xu hướng. Mô hình này duy trì khoảng 76% độ chính xác đến mốc 20 câu, trước khi giảm xuống còn 24% ở bài kiểm tra 40 câu.

Theo nhóm tác giả, đây không đơn thuần là sự sa sút về hiệu năng, mà cho thấy giới hạn trong “chú ý điều hành” (executive attention). Con người có thể tách biệt các tín hiệu xung đột và chọn lọc thông tin phù hợp với mục tiêu, trong khi LLM hiện nay vẫn gặp khó ở cơ chế kiểm soát này.

Dù vậy, nghiên cứu cũng bị cho là có giới hạn nhất định vì chủ yếu tập trung vào GPT-4o và Claude 3.5 Sonnet. Tại thời điểm công bố, những mô hình mới hơn như GPT-5, Claude Opus 4.1 và Gemini 2.5 Pro đã xuất hiện.

Vì vậy, nhóm nghiên cứu tiếp tục thử nghiệm bổ sung với GPT-5, Claude Opus 4.1 và Gemini 2.5 Pro. Kết quả cho thấy mức cải thiện so với thế hệ trước không lớn, và hạn chế ở năng lực chú ý điều hành vẫn còn xuất hiện.

Bài báo cho rằng vấn đề này có thể không thể giải quyết chỉ bằng việc nâng cấp phiên bản mô hình. Kiến trúc transformer có thể tiếp tục cải thiện bộ nhớ và khả năng lưu trữ thông tin, nhưng vẫn tương đối yếu ở cơ chế điều hành cần thiết để sàng lọc tín hiệu xung đột và phản hồi theo mục tiêu.

Nghiên cứu cũng ghi nhận một ngoại lệ đáng chú ý. GPT-5 gần như giải được hoàn hảo bài Stroop khi sử dụng chế độ Thinking theo hướng viết và chạy mã. Tuy nhiên, nhóm tác giả cho rằng đây chủ yếu là việc vượt qua bài kiểm tra nhờ công cụ bên ngoài, hơn là sự cải thiện ở năng lực nhận thức cốt lõi.

Từ kết quả này, nhóm nghiên cứu đề xuất các hướng phát triển AI trong tương lai nên ưu tiên tăng cường năng lực kiểm soát điều hành, thay vì chỉ mở rộng bộ nhớ. Theo họ, việc đưa vào những cấu trúc gần với hệ thống chú ý của con người để xử lý hiệu quả thông tin xung đột có thể giúp AI tiến gần hơn tới trí tuệ nhân tạo tổng quát (AGI).

Nghiên cứu được xem là một minh chứng cho thấy dù AI tạo sinh đang tiến bộ rất nhanh và thể hiện năng lực tạo ngôn ngữ ấn tượng, cách vận hành của các hệ thống này vẫn còn khác biệt đáng kể so với nhận thức của con người.

Jinju Hong hongjj@d-today.co.kr

ChatGPT, Claude bộc lộ hạn chế trong bài kiểm tra Stroop, hé lộ rào cản trên đường tới AGI

Nghiên cứu cho thấy LLM giảm mạnh độ chính xác khi chữ và màu đưa ra tín hiệu xung đột

Đang tạo...

Tóm tắt AI

Thử nghiệm Stroop cho thấy GPT-4o và Claude 3.5 Sonnet giảm mạnh độ chính xác khi phải xử lý thông tin xung đột, đồng thời bộc lộ hạn chế ở năng lực chú ý điều hành.

Từ khóa