简体中文 < 文章列表 - 数字今日 (DigitalToday)

搜索关键词幻觉率

AI & Enterprise

DeepSeek-R1幻觉率升至14.3%，较DeepSeek-V3高约4倍

随着推理型AI模型加快落地，评测机构Vectara采用HHEM 2.1对DeepSeek-R1与DeepSeek-V3进行对比测试。结果显示，DeepSeek-R1的幻觉率为14.3%，明显高于DeepSeek-V3的3.9%。业内担心，在具备交易执行能力的加密货币AI代理场景中，模型输出的错误信息可能直接触发链上操作，放大金融风险。

AI & Enterprise

Anthropic误将Claude Code内部源码随npm包公开，记忆架构与模型信息外流

Anthropic表示，在发布Claude Code 2.1.88版本时，误将部分内部源码随安装包一并公开，但未涉及客户数据和认证信息。相关代码很快被复制到GitHub并受到开发者分析，外流内容涉及三层记忆架构、KAIROS后台运行机制，以及部分模型代号和测试数据。

AI & Enterprise

OpenAI升级GPT-5.3 Instant：启用Web搜索时幻觉率最高降26.8%

OpenAI宣布升级ChatGPT中使用最广泛的模型GPT-5.3 Instant，重点改进回答准确性、Web搜索能力和对话体验。内部测试显示，在法律、金融等高风险场景中，启用Web搜索后模型幻觉率下降26.8%；在仅依赖内部知识的情况下，幻觉率也下降19.7%。