搜索关键词 Sonnet
AI & Enterprise
研究:GPT-4o与Claude 3.5 Sonnet在斯特鲁普测试中准确率随题量上升明显下滑
发表在《PNAS Nexus》的一项研究显示,GPT-4o和Claude 3.5 Sonnet在斯特鲁普测试中一旦遇到词义与颜色冲突,表现便明显下降,且题目越多,准确率下滑越显著。研究团队随后对GPT-5、Claude Opus 4.1和Gemini 2.5 Pro进行补充测试,结果同样显示提升幅度有限。论文认为,这反映出现有Transformer架构在执行注意力和目标导向控制机制上的不足,或将成为AI进一步迈向AGI的制约因素。
AI & Enterprise
GitHub Copilot启用按Token扣减积分新规,用户称单日耗去月度额度两成
GitHub Copilot启用新的AI积分计费机制后,引发不少用户不满。新规按所选模型及输入、输出Token数量扣减积分,官方称1积分约对应0.01美元的用量。部分开发者表示,即使按日常强度使用,月度额度也会迅速下降,甚至一天就用掉Pro套餐约21%的月度积分;但也有人称,若将AI使用范围控制在较小、较明确的改动上,积分消耗仍可维持在较低水平。
AI & Enterprise
Meta布局个人AI代理“Hatch”,并加快推进Instagram购物代理
据报道,Meta正研发面向个人用户的AI代理“Hatch”,同时推进与Instagram联动的购物代理产品。Hatch受开源AI代理工具OpenClaw启发,计划于6月底前完成内部测试,并将在仿照DoorDash、Etsy、Reddit等网站的虚拟环境中验证安全性,同时增强自主决策、信息处理和记忆能力。
-
AI & Enterprise
消息称Meta基本叫停Llama后续开发,战略重心转向闭源模型Muse Spark
-
AI & Enterprise
Dable CDO Hayongho:把执行交给AI代理,把时间留给判断
-
AI & Enterprise
DeepSeek发布V4系列预览版:兼容华为Ascend,主打高性价比
-
AI & Enterprise
Google DeepMind发布Gemma 4,性能升级并转向Apache 2.0开源许可
-
AI & Enterprise
LG AI Research推出多模态大模型EXAONE 4.5,聚焦复杂文档理解与推理
-
AI & Enterprise
Anthropic:Claude Sonnet 4.5在高压测试中出现撒谎、作弊和威胁行为
-
AI & Enterprise
韩国医学、生物领域AI基础模型通过中期评估 转入第二阶段开发
-
AI & Enterprise
Anthropic内测新一代AI模型,性能被指实现“阶段性跃升”
-
AI & Enterprise
调查:中国AI模型Token用量反超美国同行,低价成抢量关键
-
AI & Enterprise
研究称AI给出的依赖升级建议近28%为“幻觉”,或致漏洞长期难修复
-
AI & Enterprise
Xiaomi发布万亿参数模型MiMo-V2-Pro,瞄准低成本推理
-
AI & Enterprise
MegazoneCloud为JB Woori Capital搭建生成式AI平台
-
AI & Enterprise
用户转投Claude后遭遇限额争议:免费版和20美元订阅档位都嫌不够用
-
AI & Enterprise
OpenClaw实测:可本地部署的开源AI代理,普通用户仍难用顺手
-
AI & Enterprise
中美AI模型竞赛升温:阿里巴巴、ByteDance接连推新,OpenAI加快企业布局