研究发现,部分用于医疗场景的人工智能(AI)即使没有接收到真实医学影像,也会像“看过图”一样生成诊断性回答。
据Gizmodo当地时间4月13日援引Live Science报道,斯坦福大学Mohammad Asadi研究团队指出,这一问题不仅出现在医疗任务中,也存在于多种视觉AI模型。
研究团队在实验中仅向AI提供有关组织样本、胸部X光片、脑部MRI等内容的文字提示,并对“提供真实影像”和“未提供影像”两种情况进行对比测试,共覆盖12个AI模型。结果显示,多数模型在没有影像输入时,并不会直接回答“没有图像”,而是先描述并不存在的影像内容,再据此给出诊断或答案。
这一现象在医疗任务中尤为明显。尤其是在病理图像相关问题上,模型更容易给出偏向重症、甚至需要进一步临床处置的判断。研究团队将这种在无影像情况下仍表现得像已查看过影像的倾向称为“mirage reasoning”。
更值得警惕的是,这类模型在现有评测基准中仍可能取得高分。研究提到,有模型在未提供影像的情况下,仍在胸部X光问答基准中位列第一。这意味着,即便模型在传统基准上得分很高,也不能据此认定其真正理解了影像内容。
研究还发现,提示方式本身也会显著影响评测结果。研究团队表示,当要求AI“假设存在图像并作答”时,模型得分会上升;而在明确告知“没有图像,请根据你的猜测回答”后,分数则会明显下降。这表明,模型有时能够识别影像缺失并更谨慎地回答,但也可能在没有影像输入的情况下默认影像存在,并在此基础上输出结论。
为缓解这一问题,研究团队提出名为“B-Clean”的评测方法,筛除那些即使没有影像也能作答、或仅凭题干就能推断答案的题目,仅保留必须依赖真实影像才能回答的问题。
研究团队将B-Clean应用于“MMMU-Pro”“MedXpertQA-MM”“MicroVQA”三套评测基准后发现,经筛选后,题量缩减至原来的约四分之一。题目调整后,不仅模型准确率发生变化,整体排名也出现改动,显示原有排名可能更多反映了模型在无影像条件下作答的能力,而非真实的影像理解能力。
需要说明的是,该论文目前仍为预印本,尚未通过同行评审,也并非针对临床实际使用中的全部医疗AI进行直接评估。尽管如此,研究团队指出,面向医学影像判读的AI即使缺少影像输入,也可能生成看似可信的诊断文本,而传统评测基准并不足以充分识别这一问题。因此,在医疗场景部署多模态AI时,除性能分数外,还需要建立能够验证回答是否真正基于影像证据的评测体系。