测试数据显示,推理能力提升未必意味着回答可靠性同步提高。[图片来源:Shutterstock]

随着推理型人工智能(AI)模型加速普及,中国AI初创公司DeepSeek最新推出的推理模型DeepSeek-R1被曝出幻觉率明显高于上一代模型。业内认为,这一结果也为AI驱动的加密货币代理市场敲响了警钟。

据区块链媒体BeInCrypto当地时间11日 报道,AI评测公司Vectara采用HHEM 2.1基准,对DeepSeek-R1与上一代模型DeepSeek-V3进行了对比测试。结果显示,DeepSeek-R1的幻觉率为14.3%,而DeepSeek-V3为3.9%,前者约为后者的4倍。

Vectara表示,上述结果还通过Google的FACTS方法论进行了交叉验证。分析显示,在多数测试设置下,DeepSeek-R1更容易编造原文中并不存在的信息,或生成缺乏依据的内容。

Vectara将DeepSeek-R1的主要问题归结为“过度补全倾向”。该机构指出,模型为了“更好地帮助用户”,往往会额外添加原文并未提供的背景或解释。单句来看,这些内容可能显得合理,但只要把来源中不存在的信息强行串联起来,就会被归入幻觉。

业内担心,这已不只是模型可靠性问题,还有可能进一步演变为现实中的金融风险。原因在于,近期在加密货币市场升温的AI代理项目,大多将大语言模型与交易功能、自动化工具结合在一起。

目前,市场上已出现Virtuals Protocol、ai16z、AIXBT等AI代理相关项目。这类服务可以自动执行社交媒体发帖、代币分析、投资信号生成、交易执行和市场评论撰写等任务。风险在于,一旦模型生成错误信息,相关输出就可能直接转化为链上操作。

例如,当AI把并不存在的合作关系、错误的合约地址或失真的价格数据当作事实输出时,投资判断就可能被带偏。尤其是依赖多阶段推理来规划行动的模型,前序环节一旦出错,影响更容易沿着后续决策链条持续放大。

以AI代理项目AIXBT为例,外界称其曾推广416个代币,并取得平均19%的收益率,但与此同时也暴露出结构性风险:一旦模型判断失误,错误就可能直接传导给用户。

业内普遍认为,这类现象并非DeepSeek独有。用于强化推理能力的强化学习,虽然可能提升模型的自信程度和回答延展性,但也可能让错误信息以更确定的语气被输出。

Meta首席AI科学家Yann LeCun长期以来也将大语言模型的幻觉视为一种结构性限制。他认为,在以自回归预测为基础的当前大语言模型架构下,幻觉问题很难被彻底消除。

不过,也有部分AI研究机构认为,结合检索增强生成(RAG)、事后验证模型以及微调等技术,仍可在较大程度上降低幻觉率。但一线开发者指出,在实际生产环境中,幻觉问题依旧频繁出现。

因此,业内人士强调,AI代理产业的关键不在于单纯比拼性能,而在于建立“可验证的运行机制”。可行的做法包括:为模型生成内容引入独立验证系统进行复核,或在金融执行环节采用更为保守的模型。

也有观点认为,大语言模型的幻觉源于自回归预测机制,而所谓“目标驱动AI”有望缓解这一问题,即在推理过程中通过优化多个目标函数来规划答案。

关键词

#DeepSeek-R1 #DeepSeek-V3 #Vectara #HHEM 2.1 #大语言模型 #AI幻觉 #强化学习 #加密货币AI代理 #链上交易
版权所有 © DigitalToday。未经授权禁止转载或传播。