研究称：让大模型扮演“专家”未必更准，编程和数学任务表现反而下滑

一项最新研究显示，在大语言模型（LLM）的提示词中加入“你是该领域专家”等角色设定，并不一定能提高回答质量，反而可能拉低模型在编程、数学等任务中的表现。

据日本科技媒体Gigazine 3日（当地时间）报道，南加州大学（USC）的Ji Zhao Hu团队对6款AI模型进行了测试，评估“专家角色提示词”是否真的能提升输出效果。结果显示，这类做法的效果高度依赖任务类型，在部分场景下甚至会带来反效果。

过去已有研究提出，让模型承担与任务相关的专家角色，可能有助于提升回答质量。比如在讲解鸟类知识时，相比被设定为“汽车专家”，被设定为“鸟类专家”的模型通常更容易给出更贴近主题的回答。随着这一思路被广泛接受，围绕“先让模型扮演专家”的提示词技巧也逐渐流行。

为验证这一方法是否普遍有效，Ji Zhao Hu团队选取包括Llama-3.1-8B、Qwen2.5-7B在内的6款模型进行对比测试，分别设置不同类型的提示词。其中既包括“你是软件工程师”这类简短指令，也包括强调专业能力和丰富经验的长提示词。

测试结果显示，不同任务上的表现差异明显。在衡量多轮对话能力的MT-Bench中，较复杂的专家角色提示词在写作和推理任务上对输出质量有一定改善；但在编程、数学和人文相关任务中，表现反而下降。在评估广泛知识准确性的MMLU测试中，模型整体表现同样出现下滑。

研究团队据此指出，“你是专家”这类提示并不能保证模型给出更好的答案。相反，角色设定本身可能占用了模型的计算资源，使其更关注如何符合“专家式表达”，而不是更有效地调用事实信息和已有知识，因此影响了最终准确率。

这一现象在编程任务中尤为明显。研究团队表示，即便提示AI“你是熟练程序员”，生成代码的质量和实用性也未必随之提升。相比强调角色身份，更有效的做法往往是把项目需求、限制条件和交付标准描述得更具体，以便模型输出更符合预期的结果。

不过，专家角色提示词并非在所有维度上都没有价值。研究还发现，在AI对齐，尤其是依据人类伦理标准约束模型回答方面，这类提示词仍可能发挥积极作用。在评估模型拦截不当内容能力的JailbreakBench测试中，相关表现出现了较为明显的改善。

这也说明，模型的准确性与安全对齐表现并不一定同步变化。换言之，某种提示词可能不利于提升“答对”的能力，却有助于强化“避免不当输出”的能力。

从应用层面看，这一结果可能影响用户常见的提示词设计习惯。过去，不少用户默认先赋予模型“专家身份”有助于提升表现，相关使用指南也大量存在。但此次实验表明，这种方法并非通用方案，甚至可能因任务不同而适得其反。

研究团队认为，对于代码辅助、数学求解等以结果准确性为核心的任务，与其强调“专家角色”，不如更明确地给出问题范围、输出格式、约束条件和项目需求。而在更重视安全控制的场景中，专家角色提示词仍可作为辅助工具使用。

整体来看，这项研究释放出的信号是：提示词设计的关键，不在于让模型“扮演谁”，而在于用户能否清晰、具体地说明任务目标与判断标准。对于要求高准确度的应用场景，相比笼统地要求模型“像专家一样回答”，更细化的问题定义和输出要求，或许能带来更稳定的结果。

Yoonseo Lee yslee@d-today.co.kr