搜索关键词 Gemini 2.5
AI & Enterprise
研究:GPT-4o与Claude 3.5 Sonnet在斯特鲁普测试中准确率随题量上升明显下滑
发表在《PNAS Nexus》的一项研究显示,GPT-4o和Claude 3.5 Sonnet在斯特鲁普测试中一旦遇到词义与颜色冲突,表现便明显下降,且题目越多,准确率下滑越显著。研究团队随后对GPT-5、Claude Opus 4.1和Gemini 2.5 Pro进行补充测试,结果同样显示提升幅度有限。论文认为,这反映出现有Transformer架构在执行注意力和目标导向控制机制上的不足,或将成为AI进一步迈向AGI的制约因素。
AI & Enterprise
报告称Google搜索AI Overviews准确率近九成,仍可能每天产出数千万条错答
《纽约时报》与AI初创公司Oumi采用SimpleQA对Google搜索中的AI Overviews进行测试,结果显示,其准确率已从Gemini 2.5时期的约85%升至Gemini 3上线后的约91%。不过,若按Google庞大的搜索规模推算,剩余错误回答仍可能达到每小时数百万条、每天数千万条。对此,Google回应称,该研究所采用的评测基准可靠性存在问题,未能反映真实用户的搜索行为。
AI & Enterprise
研究称AI给出的依赖升级建议近28%为“幻觉”,或致漏洞长期难修复
Sonatype对Maven Central、npm、PyPI和NuGet四大软件包仓库中的3.687万条依赖升级建议进行了分析,并评估了7款AI模型生成的25.8万条建议。研究显示,在OpenAI GPT-5给出的依赖升级建议中,近28%指向并不存在的版本号或升级路径。即便是最新推理模型,仍存在较多幻觉和错误建议,可能导致漏洞修复延迟,并推高技术债务。
-
AI & Enterprise
研究称过度依赖LLM写作会削弱个人表达,文本更趋中性
-
AI & Enterprise
Meta推迟发布下一代AI模型“Avocado”,发布时间延后至5月以后
-
AI & Enterprise
Alibaba发布Qwen-Image-2.0,主打写实图像与文字图片生成
-
AI & Enterprise
Flora完成4200万美元A轮融资,发力多模态生成式AI设计平台
-
AI & Enterprise
中国科技公司加快AI布局:百度Ernie Assistant月活破2亿,快手Kling AI迈入规模化变现
-
AI & Enterprise
Gemini推动Google模型API业务升温,市场关注四季度业绩表现