DeepSeek-R1幻觉率升至14.3%，较DeepSeek-V3高约4倍

随着推理型人工智能（AI）模型加速普及，中国AI初创公司DeepSeek最新推出的推理模型DeepSeek-R1被曝出幻觉率明显高于上一代模型。业内认为，这一结果也为AI驱动的加密货币代理市场敲响了警钟。

据区块链媒体BeInCrypto当地时间11日报道，AI评测公司Vectara采用HHEM 2.1基准，对DeepSeek-R1与上一代模型DeepSeek-V3进行了对比测试。结果显示，DeepSeek-R1的幻觉率为14.3%，而DeepSeek-V3为3.9%，前者约为后者的4倍。

Vectara表示，上述结果还通过Google的FACTS方法论进行了交叉验证。分析显示，在多数测试设置下，DeepSeek-R1更容易编造原文中并不存在的信息，或生成缺乏依据的内容。

Vectara将DeepSeek-R1的主要问题归结为“过度补全倾向”。该机构指出，模型为了“更好地帮助用户”，往往会额外添加原文并未提供的背景或解释。单句来看，这些内容可能显得合理，但只要把来源中不存在的信息强行串联起来，就会被归入幻觉。

业内担心，这已不只是模型可靠性问题，还有可能进一步演变为现实中的金融风险。原因在于，近期在加密货币市场升温的AI代理项目，大多将大语言模型与交易功能、自动化工具结合在一起。

目前，市场上已出现Virtuals Protocol、ai16z、AIXBT等AI代理相关项目。这类服务可以自动执行社交媒体发帖、代币分析、投资信号生成、交易执行和市场评论撰写等任务。风险在于，一旦模型生成错误信息，相关输出就可能直接转化为链上操作。

例如，当AI把并不存在的合作关系、错误的合约地址或失真的价格数据当作事实输出时，投资判断就可能被带偏。尤其是依赖多阶段推理来规划行动的模型，前序环节一旦出错，影响更容易沿着后续决策链条持续放大。

以AI代理项目AIXBT为例，外界称其曾推广416个代币，并取得平均19%的收益率，但与此同时也暴露出结构性风险：一旦模型判断失误，错误就可能直接传导给用户。

业内普遍认为，这类现象并非DeepSeek独有。用于强化推理能力的强化学习，虽然可能提升模型的自信程度和回答延展性，但也可能让错误信息以更确定的语气被输出。

Meta首席AI科学家Yann LeCun长期以来也将大语言模型的幻觉视为一种结构性限制。他认为，在以自回归预测为基础的当前大语言模型架构下，幻觉问题很难被彻底消除。

不过，也有部分AI研究机构认为，结合检索增强生成（RAG）、事后验证模型以及微调等技术，仍可在较大程度上降低幻觉率。但一线开发者指出，在实际生产环境中，幻觉问题依旧频繁出现。

因此，业内人士强调，AI代理产业的关键不在于单纯比拼性能，而在于建立“可验证的运行机制”。可行的做法包括：为模型生成内容引入独立验证系统进行复核，或在金融执行环节采用更为保守的模型。

也有观点认为，大语言模型的幻觉源于自回归预测机制，而所谓“目标驱动AI”有望缓解这一问题，即在推理过程中通过优化多个目标函数来规划答案。

Jinju Hong hongjj@d-today.co.kr