简体中文 < 文章列表 - 数字今日 (DigitalToday)

搜索关键词 Gemini 2.5

AI & Enterprise

研究：GPT-4o与Claude 3.5 Sonnet在斯特鲁普测试中准确率随题量上升明显下滑

发表在《PNAS Nexus》的一项研究显示，GPT-4o和Claude 3.5 Sonnet在斯特鲁普测试中一旦遇到词义与颜色冲突，表现便明显下降，且题目越多，准确率下滑越显著。研究团队随后对GPT-5、Claude Opus 4.1和Gemini 2.5 Pro进行补充测试，结果同样显示提升幅度有限。论文认为，这反映出现有Transformer架构在执行注意力和目标导向控制机制上的不足，或将成为AI进一步迈向AGI的制约因素。

AI & Enterprise

报告称Google搜索AI Overviews准确率近九成，仍可能每天产出数千万条错答

《纽约时报》与AI初创公司Oumi采用SimpleQA对Google搜索中的AI Overviews进行测试，结果显示，其准确率已从Gemini 2.5时期的约85%升至Gemini 3上线后的约91%。不过，若按Google庞大的搜索规模推算，剩余错误回答仍可能达到每小时数百万条、每天数千万条。对此，Google回应称，该研究所采用的评测基准可靠性存在问题，未能反映真实用户的搜索行为。

AI & Enterprise

研究称AI给出的依赖升级建议近28%为“幻觉”，或致漏洞长期难修复

Sonatype对Maven Central、npm、PyPI和NuGet四大软件包仓库中的3.687万条依赖升级建议进行了分析，并评估了7款AI模型生成的25.8万条建议。研究显示，在OpenAI GPT-5给出的依赖升级建议中，近28%指向并不存在的版本号或升级路径。即便是最新推理模型，仍存在较多幻觉和错误建议，可能导致漏洞修复延迟，并推高技术债务。

搜索关键词 Gemini 2.5

研究：GPT-4o与Claude 3.5 Sonnet在斯特鲁普测试中准确率随题量上升明显下滑

报告称Google搜索AI Overviews准确率近九成，仍可能每天产出数千万条错答

研究称AI给出的依赖升级建议近28%为“幻觉”，或致漏洞长期难修复

研究称过度依赖LLM写作会削弱个人表达，文本更趋中性

Meta推迟发布下一代AI模型“Avocado”，发布时间延后至5月以后

Alibaba发布Qwen-Image-2.0，主打写实图像与文字图片生成

Flora完成4200万美元A轮融资，发力多模态生成式AI设计平台

中国科技公司加快AI布局：百度Ernie Assistant月活破2亿，快手Kling AI迈入规模化变现

Gemini推动Google模型API业务升温，市场关注四季度业绩表现