搜索关键词 评测体系
AI & Enterprise
斯坦福团队发现医疗视觉AI评测漏洞:无影像输入仍会生成诊断
斯坦福大学研究团队发现,多款医疗视觉AI在未接收病理图像、胸部X光片或脑部MRI等影像输入时,仍会描述并不存在的影像内容,并据此给出诊断。研究将这一现象称为“mirage reasoning”,并指出相关模型在传统评测基准中仍可能获得高分。为此,团队提出B-Clean方法,筛除仅凭题干即可推断答案的题目,仅保留必须依赖真实影像作答的题目。
AI & Enterprise
TechRadar:大模型竞争重心转向多语言能力与本土语境理解
TechRadar指出,大模型下一阶段的竞争力将更多取决于多语言能力和对本土语境的理解,而非单纯比拼模型规模或算力。随着AI在全球加速落地,以英语为中心构建的基础模型正日益显现瓶颈,不少模型仍停留在将英语知识转译为其他语言的层面。面向金融、医疗、公共服务等场景,业界认为,模型需要直接基于不同语言体系开展推理,并完善数据、架构和评测体系,以支撑主权AI建设。
AI & Enterprise
H Company发布AI代理Holo3:支持读屏并执行跨应用任务
法国AI初创公司H Company推出视觉语言模型(VLM)Holo3,支持在网页、桌面和移动端读取屏幕内容,执行点击、输入等操作,并处理跨应用工作流。开源版Holo3-35B-A3B基于Qwen3.5-35B-A3B微调,在OSWorld-Verified基准测试中得分77.8%;Holo3-122B-A10B仅向付费用户开放。