DeepSeek-R1、幻覚率14.3%　DeepSeek-V3の約4倍に

推論型AIの普及が進む中、中国のAIスタートアップDeepSeekの最新推論モデル「DeepSeek-R1」で、従来モデルを大きく上回る幻覚率が確認された。業界では、暗号資産分野で広がるAIエージェント関連プロジェクトの運用リスクを示す事例として受け止められている。

ブロックチェーンメディアのBeInCryptoが11日（現地時間）に報じたところによると、AI評価企業Vectaraは独自の幻覚評価指標「HHEM 2.1」を使い、DeepSeek-R1と前世代モデル「DeepSeek-V3」を比較した。DeepSeek-R1の幻覚率は14.3%で、DeepSeek-V3の3.9%の約4倍に達した。

Vectaraは今回の結果について、GoogleのFACTS手法でも別途検証したと明らかにした。分析では、DeepSeek-R1は複数のテスト条件で、原文にない内容を補ったり、根拠の乏しい情報を生成したりする傾向が強かったという。

同社はDeepSeek-R1の主な問題点として、「過剰補完の傾向」を挙げた。利用者の意図に応えようとするあまり、原文に存在しない文脈や説明を付け加えるケースが見られたとしている。個々の文が一見もっともらしく見えても、出典にない内容を恣意的に結び付けた時点で幻覚に分類される。

こうした問題は、単なるAIの品質論争にとどまらないとの見方も強い。足元で拡大する暗号資産市場のAIエージェント関連プロジェクトの多くが、大規模言語モデル（LLM）に取引機能や自動化ツールを組み合わせた構造を採用しているためだ。

市場では、Virtuals Protocol、ai16z、AIXBTなど、AIエージェントトークンを掲げるプロジェクトが相次いで登場している。ソーシャルメディアへの投稿、トークン分析、投資シグナルの生成、取引執行、市場コメントの作成などを自動化するのが特徴だ。モデルが誤情報を生成した場合、その誤りが実際のオンチェーン行動に直結しかねない点が課題となる。

例えば、AIが存在しない提携関係や誤ったコントラクトアドレス、不正確な価格データを事実のように出力すれば、投資判断そのものを誤らせる可能性がある。複数段階の推論を前提に行動を計画するモデルでは、初期段階の誤りが後続の意思決定全体に波及するリスクも大きい。

AIXBTについては、416のトークンを宣伝し、平均19%の収益率を記録した事例で知られる一方、モデルの判断ミスがそのまま利用者に波及しかねない構造的リスクを示したとの見方もある。

業界では、こうした現象をDeepSeek固有の問題とはみていない。推論能力の強化に使われる強化学習（RL）は、モデルの自信や応答の広がりを高める半面、誤情報も断定的かつもっともらしく生成しやすくするとの指摘がある。

Metaの主任AI科学者ヤン・ルクンも、LLMの幻覚を構造的な限界として位置付けてきた。自己回帰方式に基づく現在のLLMでは、幻覚の問題を完全に解消するのは難しいと主張している。

一方で、一部のAI研究機関は、検索拡張生成（RAG）や事後検証モデル、ファインチューニングなどによって、幻覚率を大幅に抑えられるとしている。ただ、実運用の現場では依然として幻覚が頻発するとの指摘も根強い。

専門家は最終的に、AIエージェント産業の中核課題は性能競争ではなく、「検証可能な運用構造」の確立にあると強調する。モデルが生成した情報を別の検証システムで再確認することや、金融取引の実行段階ではより保守的なモデルを使うことなどが、現実的な対応策として挙げられている。

Jinju Hong hongjj@d-today.co.kr

キーワード