搜索关键词 评测基准
AI & Enterprise
RLWRLD联手NVIDIA制定下一代人形机器人AI开放标准
Physical AI公司RLWRLD宣布,将与NVIDIA联合制定下一代人形机器人AI开放标准。双方将围绕灵巧操作能力评测基准DexBench、灵巧操作训练数据标准,以及与NVIDIA Isaac Lab和Isaac Lab-Arena的框架对接展开合作,以推动建立行业所需的客观评测标准和共享数据标准。
AI & Enterprise
韩国推进高质量AI数据建设 提速“数据高速公路”和制度改革
面向AI转型,韩国政府提出集中推进高质量数据供给,重点建设推理、AI安全可信、评测基准等数据集,并扩大制造、出行、医疗等领域的行业专用数据供给。同时,政府将扩大公共数据开放,推进“数据高速公路”和数据空间建设,并推动个人信息、医疗和版权相关制度的制定与完善,以支持中小企业和初创企业推进AX应用。
AI & Enterprise
斯坦福团队发现医疗视觉AI评测漏洞:无影像输入仍会生成诊断
斯坦福大学研究团队发现,多款医疗视觉AI在未接收病理图像、胸部X光片或脑部MRI等影像输入时,仍会描述并不存在的影像内容,并据此给出诊断。研究将这一现象称为“mirage reasoning”,并指出相关模型在传统评测基准中仍可能获得高分。为此,团队提出B-Clean方法,筛除仅凭题干即可推断答案的题目,仅保留必须依赖真实影像作答的题目。