採用AIによる履歴書評価で自己選好バイアスが確認された。写真=Shutterstock

採用に活用される人工知能(AI)が、自身と同じモデルが生成した文章を含む履歴書を、より高く評価する傾向があることが分かった。研究チームはこの現象を「AI自己選好バイアス(AI self-preference bias)」と定義し、採用評価の過程で実際に生じるかを検証した。

5月11日(現地時間)、Gigazineによると、メリーランド大学、シンガポール国立大学、オハイオ州立大学の研究チームがこうした内容の研究結果を公表した。

研究は、人間が作成した履歴書をAIが整え、さらに企業側がAIで応募書類をスクリーニングする流れに着目した。こうした構図は採用に限らず、SNSで利用者がAIで文章を作成し、プラットフォーム側が別のAIで分類・フィルタリングするケースにも通じるとしている。

研究チームは、採用AIの公正性を評価する際には、性別や人種など属性に基づく偏りだけでなく、AIがAIの文章を評価する過程で生じる偏りも検証する必要があると指摘した。

実験には、履歴書作成サービス「LiveCareer.com」のデータセットを用いた。対象は、生成AIが広く普及する以前に人間が作成した履歴書2245件だ。

学歴や職歴などの構造化情報はそのままにし、文体の差が出やすい要約欄だけをGPT-4o、DeepSeek-V3、Qwen 2.5-72B、Llama 3.3-70Bなどが新たに書いた文章に差し替えた。その上で、評価用AIに人間作成の要約とAI生成の要約を提示し、どちらの履歴書が優れているかを選ばせた。

その結果、多くのモデルで、人間が書いた文章よりも自分と同じモデルが生成した文章を選ぶ傾向が確認された。人間作成の要約より同一モデル生成の要約を選んだ比率は、GPT-4oが97.6%、Llama 3.3-70Bが96.3%、DeepSeek-V3が95.5%、Qwen 2.5-72Bが95.9%だった。

研究チームは、AIが単純に「より良い文章」を選んだだけの可能性も検証した。文の長さ、語彙の複雑さ、文体、意味の類似性などを統計的にそろえ、品質が近い要約同士で比較した場合でも、自己選好バイアスは残った。

この条件での自己選好の比率は、GPT-4oが81.9%、Llama 3.3-70Bが78.9%、Qwen 2.5-72Bが78.0%、DeepSeek-V3が71.6%だった。

人間の評価者との比較でも、同様の傾向が見られた。人間の評価者が、明瞭性、流暢性、一貫性、簡潔性、総合品質の観点から人間作成の要約をより良いと判断した場合でも、GPT-4o、DeepSeek-V3、Llama 3.3-70Bは自モデルが生成した要約を選ぶケースがあった。

もっとも、すべてのモデルの組み合わせで同じ傾向が繰り返されたわけではない。DeepSeek-V3は、他モデルが書いた要約よりもDeepSeek-V3が生成した要約を好む傾向が比較的明確だった。一方、GPT-4oとLlama 3.3-70Bは比較対象によって反応が変わり、人間作成の要約との比較ほど一貫した自己選好は示さなかった。

研究チームは、実際の採用フローに近いシミュレーションも実施した。候補者5人について、人間作成の要約を含む履歴書5件と、評価AIと同一モデルが書いた要約を含む履歴書5件の計10件を用意し、この中から面接対象4人を選ばせた。

候補者の実質的な情報が同一であれば、双方から平均2件ずつ選ばれるはずだが、同一モデルの要約を含む履歴書は、人間作成の要約を含む履歴書より23~60%多く面接候補に残った。

職種による差も確認された。営業や会計などのビジネス関連職ではAI生成要約の優位性が大きく、自動車関連職や農業関連職では差が比較的小さかった。

研究チームは、こうした状況が続けば、広く使われるAIモデルの文体が応募者側に定着する「ロックイン効果」が生じる可能性があると指摘した。

バイアスを抑える対策も試した。1つは、評価AIに対し、履歴書が人間作成かAI生成かを問わず、内容の品質だけに注目するようシステムプロンプトで指示する方法。もう1つは、評価を単一モデルに委ねず、自己選好の弱い小型モデルを含む複数モデルの多数決で決める方法だ。

内容品質に集中するよう指示した場合、GPT-4oの自己選好バイアスは82%から61%に、Llama 3.3-70Bは79%から30%に低下した。多数決方式では、GPT-4oが82%から30%に、Llama 3.3-70Bが79%から23%に、DeepSeek-V3が72%から29%に下がった。

研究チームは、内容品質に注目させる指示や複数モデルによる評価の導入が、偏りの緩和に有効となる可能性があるとみている。

今回の研究は、採用自動化におけるAIバイアスが、応募者の属性判断にとどまらないことを示した。履歴書の作成と審査の両方で同一モデルのAIが広く使われるほど、評価基準そのものが特定モデルの文体に偏るリスクが高まるとしている。

キーワード

#AI #採用 #履歴書 #バイアス #GPT-4o #DeepSeek-V3 #Qwen 2.5-72B #Llama 3.3-70B
Copyright © DigitalToday. All rights reserved. Unauthorized reproduction and redistribution are prohibited.