医療現場で使われるAIが、実際には診断画像を受け取っていないにもかかわらず、画像を見たかのように所見や診断文を生成する現象が確認された。既存のベンチマークで高い評価を得たモデルでも、実際に画像を理解して回答しているとは限らない可能性が浮き彫りになった。
4月13日付のLive Scienceなどの報道によると、Stanford Universityのモハマド・アサディ氏の研究チームは、医療分野を含む複数の視覚系AIモデルで同様の問題を確認した。
研究チームは、組織標本、胸部X線、脳MRIに関する指示文だけを与える条件と、実際の画像を与える条件を比較し、12のAIモデルを検証した。
その結果、多くのモデルは画像が与えられていない場合でも「画像がない」とは答えず、実在しない画像内容をもっともらしく説明したうえで、診断や回答を返した。
こうした傾向は医療分野で特に強く表れた。病理画像に関する設問では、AIの出力が追加の臨床対応を要する、より重い診断に寄る傾向もみられた。
研究チームは、画像がないにもかかわらず、モデルが画像を確認したかのように振る舞うこの傾向を「蜃気楼推論(mirage reasoning)」と名付けた。
問題は、このようなモデルが既存の性能評価では高得点を得られてしまう点だ。研究チームによると、画像なしで回答したケースでも、胸部X線の問答ベンチマークで最上位となるケースがあった。
これは、既存ベンチマークで高スコアを記録しても、そのAIが実際に画像を理解していたと判断するのは難しいことを意味する。
評価結果は、設問の与え方によっても大きく変わった。「画像があると仮定して答えよ」と指示するとスコアは上がる一方、「画像はないので推測して答えよ」と明記すると、大きく低下したという。
この結果からは、モデルが画像の不在を認識して慎重に応答する場合がある一方で、画像がないのに存在を前提として答えるパターンも併存していることがうかがえる。
研究チームは、こうした限界に対応する評価手法として「B-Clean」を提案した。画像がなくても解答できる設問や、設問文だけで推測しやすい項目を除外し、実画像を見なければ解けない問題だけを残す手法だ。
「MMMU-Pro」「MedXpertQA-MM」「MicroVQA」の3つのベンチマークにB-Cleanを適用したところ、総設問数は従来のおよそ4分の1に減少した。設問を精選した後は、正答率だけでなくAIモデルの順位にも変化が生じた。
従来の順位が、実画像の理解力ではなく、架空の画像を前提にした応答によって押し上げられていた可能性を示す結果といえる。
もっとも、今回の論文は査読前のプレプリントであり、実際の臨床現場で用いられるすべての医療AIを直接評価したものではない。それでも研究チームは、医療画像の読影を前提とするAIであっても、画像なしでそれらしい診断文を生成し得ること、しかも既存ベンチマークではそれを十分に見分けにくいことを指摘した。
医療現場への導入が進むマルチモーダルAIでは、性能指標だけでなく、実際に画像を根拠として回答したかどうかまで検証できる評価体系の整備が求められそうだ。