搜索关键词 AI对齐 AI & Enterprise 研究称:让大模型扮演“专家”未必更准,编程和数学任务表现反而下滑 南加州大学(USC)研究团队对6款AI模型测试“专家角色”提示词后发现,“你是某领域专家”等设定并不会稳定提升回答质量,反而可能拖累编程、数学及部分知识类任务表现。研究认为,模型可能将计算资源用于遵循角色设定,而非调用事实信息;不过在JailbreakBench测试中,这类提示词对拦截不当内容的表现有所改善。
AI & Enterprise 研究称:让大模型扮演“专家”未必更准,编程和数学任务表现反而下滑 南加州大学(USC)研究团队对6款AI模型测试“专家角色”提示词后发现,“你是某领域专家”等设定并不会稳定提升回答质量,反而可能拖累编程、数学及部分知识类任务表现。研究认为,模型可能将计算资源用于遵循角色设定,而非调用事实信息;不过在JailbreakBench测试中,这类提示词对拦截不当内容的表现有所改善。
文章搜索 搜索 AI 编辑精选 热门 1 韩国KOSPI首次站上6600点关口 连续两个交易日创收盘新高 2 韩国综指收于6615.03点 首次站上6600点 3 韩国四大金融控股一季度净利润首超5万亿韩元,KB居首、Woori下滑 4 全球ESG重心转向公司治理:韩国商法修订与库存股强制注销加压企业 5 韩国半导体设计服务商加速转向AI芯片架构,项目单价与融资规模双升 6 韩国科学技术信息通信部与Google DeepMind签署谅解备忘录 深化AI科研合作 7 韩国科学技术信息通信部与KOSA成立“K-AI Partnership” 搭建民间AI合作平台 8 LG CNS扩大与OpenAI合作范围,拿下ChatGPT Edu转售资格加码教育AX市场 9 Samsung Electronics首款智能眼镜疑似曝光:或不配备显示屏,售价或在379至499美元之间 10 Hyundai Motor在2026北京国际车展全球首发IONIQ V,加码中国本土化布局 1 Hanwha Solutions一季度营业利润同比增长205.5%至926亿韩元 2 Lovable 推出 iOS 和 Android 应用,为符合苹果审核要求将生成结果预览改至浏览器 3 AWS推出桌面AI应用Amazon Quick,瞄准AI代理赛道 4 Lotte Energy Materials将投500亿韩元扩建益山工厂电路铜箔产能 5 OpenAI入驻Amazon Bedrock,加速拓展企业市场 6 Solus Advanced Materials 2026年一季度营收1926亿韩元,营业亏损220亿韩元 7 AWS Summit Seoul 2026将于5月举行 聚焦Agentic AI新趋势 8 韩国团队研发可切换2D/3D的超薄金属透镜 9 SK hynix量产192GB SOCAMM2内存模组,面向AI服务器 10 AI编程工具推高上架热潮:今年一季度全球App发布量同比增60%