搜索关键词 评测基准
AI & Enterprise
斯坦福团队发现医疗视觉AI评测漏洞:无影像输入仍会生成诊断
斯坦福大学研究团队发现,多款医疗视觉AI在未接收病理图像、胸部X光片或脑部MRI等影像输入时,仍会描述并不存在的影像内容,并据此给出诊断。研究将这一现象称为“mirage reasoning”,并指出相关模型在传统评测基准中仍可能获得高分。为此,团队提出B-Clean方法,筛除仅凭题干即可推断答案的题目,仅保留必须依赖真实影像作答的题目。
AI & Enterprise
Krafton发布AI模型品牌Raon,四款基础模型在Hugging Face开源
Krafton宣布推出AI模型品牌Raon,并在Hugging Face开源四款基础模型,涵盖语音语言模型、实时全双工语音模型、文本转语音和视觉编码器。Krafton表示,从数据采集、模型训练到性能评测,相关基础模型开发流程均由内部自主完成,部分模型在多项基准测试中取得领先成绩。
AI & Enterprise
Kakao面向Agentic AI的评测基准论文被ICLR 2026录用
Kakao宣布,公司自研的面向Agentic AI的评测基准论文已被ICLR 2026录用。该基准主要评估大语言模型在真实服务场景下处理多步骤任务和跨领域请求的能力,覆盖旅行、购物、金融、日程等17个服务领域及100多种虚拟工具,支持韩语和英语,并已在GitHub开源。