最新研究显示,用于简历筛选的AI在评估候选人材料时,可能会对由同一模型生成的简历文本给予更高评价。
据外媒Gigazine当地时间11日报道,来自马里兰大学、新加坡国立大学和俄亥俄州立大学的研究团队将这一现象定义为“AI自我偏好偏差”(AI self-preference bias),并检验其是否会在招聘评估流程中实际出现。
研究聚焦于一种日益常见的招聘场景:求职者先借助AI润色简历,企业再使用AI筛选申请材料。研究团队指出,类似情况也出现在社交媒体平台上——用户用AI生成内容,平台再用AI进行分类和过滤。因此,在评估招聘AI的公平性时,除了性别、种族等传统偏差来源,也应关注AI在评估AI生成文本时可能产生的新偏差。
本次实验使用了简历撰写服务LiveCareer.com的数据集,样本包括2245份由人类在生成式AI普及前撰写的简历。
研究团队保留了教育背景、工作经历等结构化信息不变,重点改写最能体现写作风格差异的“摘要”部分,分别由GPT-4o、DeepSeek-V3、Qwen 2.5-72B和Llama 3.3-70B生成新版本。随后,再让这些模型在“人类撰写摘要”和“AI改写摘要”之间进行两两比较,判断哪一份简历更优。
结果显示,多数模型都更倾向于选择由自身生成的摘要,而不是人类撰写的摘要。按研究统计,GPT-4o的这一倾向为97.6%,Llama 3.3-70B为96.3%,DeepSeek-V3为95.5%,Qwen 2.5-72B为95.9%。
研究团队进一步排除了“AI只是选中了质量更高的文案”这一可能性。在对句长、词汇复杂度、文体特征和语义相似度等因素进行匹配后,再比较质量接近的摘要文本,这种自我偏好仍然存在:GPT-4o为81.9%,Llama 3.3-70B为78.9%,Qwen 2.5-72B为78.0%,DeepSeek-V3为71.6%。
与人类评审结果对照后,这一趋势依旧明显。即便人类评审在清晰度、流畅度、一致性、简洁性和整体质量等维度上认为“人类摘要更好”,GPT-4o、DeepSeek-V3和Llama 3.3-70B仍会优先选择由本模型生成的摘要。
不过,不同模型的表现并不完全一致。DeepSeek-V3对DeepSeek-V3生成摘要的偏好更为明确;GPT-4o和Llama 3.3-70B则会随着对比对象不同而改变选择,其自我偏好并不像在与人类摘要对比时那样稳定。
研究团队还模拟了更接近真实招聘流程的筛选场景:围绕5名候选人准备10份简历,其中5份使用人类撰写摘要,另5份使用与评估模型相同的大模型改写摘要,并要求系统从中选出4人进入面试。理论上,在候选人核心信息相同的前提下,两类简历平均都应有2份入选;但结果显示,采用同一模型改写摘要的简历,进入面试名单的概率比人类摘要版本高出23%至60%。
不同岗位之间也存在差异。在销售、会计等商业相关岗位中,AI改写摘要的优势更为明显;在汽车相关岗位和农业相关岗位中,两者差距相对较小。研究团队警示称,如果这一情况反复出现,求职者的简历写作风格可能会逐步向少数主流模型收敛,进而形成“锁定效应”。
为降低这一偏差,研究团队测试了两种方法:一是在系统提示语中明确要求评估模型不要区分摘要由人类撰写还是由AI生成,只关注内容本身的质量;二是不由单一模型作出最终判断,而是引入多个模型——包括自我偏好较弱的小型模型——通过多模型投票作出决策。
结果显示,在第一种方法下,GPT-4o的自我偏好偏差从82%降至61%,Llama 3.3-70B从79%降至30%;在多模型投票机制下,GPT-4o从82%降至30%,Llama 3.3-70B从79%降至23%,DeepSeek-V3从72%降至29%。研究团队认为,“只看内容质量”的指令以及多模型评估机制,都有助于缓解这一偏差。
研究团队表示,这项研究表明,招聘自动化中的AI偏差并不只体现在对求职者属性的判断上。如果企业在简历撰写和筛选两个环节同时广泛使用同一类AI模型,评估标准就更可能向特定模型的写作风格集中。