Nhiều hệ thống trí tuệ nhân tạo dùng trong y tế vẫn có thể đưa ra mô tả và chẩn đoán như thể đã xem hình ảnh y khoa, ngay cả khi thực tế không được cung cấp ảnh.
Theo Live Science, dẫn lại thông tin từ Gigazine ngày 13/4, nhóm nghiên cứu do Mohammad Asadi, thuộc Đại học Stanford, dẫn dắt cho biết hiện tượng này xuất hiện ở nhiều mô hình AI thị giác, trong đó có các mô hình ứng dụng cho y tế.
Trong nghiên cứu, nhóm chỉ cung cấp cho AI phần mô tả bằng văn bản liên quan đến mẫu mô, ảnh X-quang ngực, MRI não... rồi so sánh phản hồi giữa hai tình huống: có kèm ảnh thật và không có ảnh. Thử nghiệm được thực hiện trên 12 mô hình. Kết quả cho thấy nhiều mô hình, thay vì thừa nhận không có hình ảnh để phân tích, lại tự mô tả một hình ảnh không hề được cung cấp và tiếp tục đưa ra chẩn đoán hoặc câu trả lời.
Hiện tượng này đặc biệt rõ trong lĩnh vực y tế. Với các câu hỏi liên quan đến ảnh bệnh lý, AI thường đưa ra chẩn đoán theo hướng nghiêm trọng hơn và khuyến nghị cần thêm can thiệp lâm sàng. Nhóm nghiên cứu gọi xu hướng mô hình hành xử như thể đã kiểm tra ảnh dù không có ảnh là “mirage reasoning”.
Điều đáng chú ý là những mô hình như vậy vẫn có thể đạt điểm cao trong các bài kiểm chuẩn hiện nay. Nhóm nghiên cứu cho biết từng ghi nhận trường hợp một mô hình vẫn đứng đầu benchmark hỏi-đáp về X-quang ngực dù câu trả lời không cần đến hình ảnh. Theo nhóm tác giả, điều này cho thấy điểm số cao trên benchmark hiện tại không đồng nghĩa mô hình thực sự hiểu hình ảnh y khoa.
Kết quả đánh giá cũng thay đổi đáng kể tùy theo cách đặt câu hỏi. Nhóm nghiên cứu cho biết khi yêu cầu AI “giả định có ảnh và trả lời”, điểm số tăng lên; ngược lại, khi nêu rõ “không có ảnh, hãy đoán để trả lời”, kết quả giảm mạnh. Điều đó cho thấy có lúc mô hình nhận biết việc thiếu dữ liệu hình ảnh và phản hồi thận trọng hơn, nhưng trong nhiều trường hợp vẫn mặc định trả lời như thể ảnh đang hiện diện.
Để khắc phục hạn chế này, nhóm đề xuất phương pháp đánh giá mang tên “B-Clean”. Cách làm này loại bỏ những câu hỏi có thể giải được mà không cần hình ảnh, hoặc có thể suy ra đáp án chỉ từ văn bản, chỉ giữ lại các mục buộc mô hình phải thực sự nhìn ảnh mới trả lời được.
Khi áp dụng B-Clean cho ba benchmark gồm MMMU-Pro, MedXpertQA-MM và MicroVQA, tổng số câu hỏi giảm xuống còn khoảng một phần tư so với ban đầu. Sau khi sàng lọc, không chỉ tỷ lệ trả lời đúng mà cả thứ hạng giữa các mô hình AI cũng thay đổi, cho thấy các bảng xếp hạng trước đó có thể đã bị kéo lệch bởi việc mô hình trả lời như thể đã thấy ảnh.
Dù vậy, nghiên cứu hiện mới dừng ở dạng preprint, chưa qua phản biện học thuật. Đây cũng không phải đánh giá trực tiếp toàn bộ các hệ thống AI y tế đang được sử dụng trong môi trường lâm sàng.
Tuy nhiên, nhóm nghiên cứu nhấn mạnh rằng ngay cả những mô hình được thiết kế để đọc hình ảnh y khoa vẫn có thể tạo ra các chẩn đoán nghe có vẻ hợp lý dù thiếu ảnh đầu vào, trong khi benchmark hiện nay chưa đủ khả năng sàng lọc triệt để hiện tượng này. Vì vậy, với các hệ thống AI đa phương thức được đưa vào y tế, việc đánh giá không nên chỉ dựa vào điểm số mà còn phải kiểm tra liệu mô hình có thực sự căn cứ vào hình ảnh khi trả lời hay không.