搜索关键词 Gemini 2.5
AI & Enterprise
报告称Google搜索AI Overviews准确率近九成,仍可能每天产出数千万条错答
《纽约时报》与AI初创公司Oumi采用SimpleQA对Google搜索中的AI Overviews进行测试,结果显示,其准确率已从Gemini 2.5时期的约85%升至Gemini 3上线后的约91%。不过,若按Google庞大的搜索规模推算,剩余错误回答仍可能达到每小时数百万条、每天数千万条。对此,Google回应称,该研究所采用的评测基准可靠性存在问题,未能反映真实用户的搜索行为。
AI & Enterprise
研究称AI给出的依赖升级建议近28%为“幻觉”,或致漏洞长期难修复
Sonatype对Maven Central、npm、PyPI和NuGet四大软件包仓库中的3.687万条依赖升级建议进行了分析,并评估了7款AI模型生成的25.8万条建议。研究显示,在OpenAI GPT-5给出的依赖升级建议中,近28%指向并不存在的版本号或升级路径。即便是最新推理模型,仍存在较多幻觉和错误建议,可能导致漏洞修复延迟,并推高技术债务。
AI & Enterprise
研究称过度依赖LLM写作会削弱个人表达,文本更趋中性
美国西海岸多所高校研究团队在一项针对100人的写作实验中发现,若文本中超过40%的内容由大语言模型生成,作者更倾向于给出中性表述,相关回答较低使用组高出69%。与此同时,这类文本的第一人称使用减少50%,整体风格更正式、个人色彩更弱。研究还发现,LLM在改写既有文本时改动幅度明显大于人类编辑,部分情况下甚至会影响原意。