LLMに専門家の役割を与える指示が、かえって精度低下につながる可能性があるという。写真=Shutterstock

大規模言語モデル(LLM)に「この分野の専門家」といった役割を与えるプロンプトが、かえって回答精度を下げる可能性があることが分かった。南カリフォルニア大学の研究チームが6種類のAIモデルを調べたところ、数学やコーディングでは精度低下が見られた一方、対話評価や安全性の面では改善が確認された。

Gigazineが3日(現地時間)に報じたところによると、南カリフォルニア大学のジジャオ・フー氏の研究チームは、LLMに専門家の役割を与える「専門家ペルソナ・プロンプト」の効果を検証した。対象にはLlama-3.1-8B、Qwen2.5-7Bを含む6モデルを用いた。

これまで、AIに特定分野の専門家として振る舞うよう指示すれば、関連タスクの回答品質が高まるとの見方が広がっていた。たとえば鳥について説明させる場合、自動車の専門家として答えさせるより、鳥類の専門家として答えさせた方が適切な回答を引き出せる、という発想だ。こうした考え方を前提に、AIへ専門家の役割を与えるプロンプト手法も広く共有されてきた。

研究チームは、各モデルに異なる種類の指示を与え、ベンチマークでの結果を比較した。実験では「あなたはソフトウェアエンジニアです」といった短い指示に加え、特定分野での深い専門性や豊富な経験を強調する長い指示も使った。

結果はタスクごとに分かれた。複数ターンの対話能力を測るMT-Benchでは、複雑な専門家プロンプトによって、文章作成や推論の出力品質が一部で改善した。一方で、コーディング、数学、人文分野では品質の低下が確認された。幅広い知識の正確さを測るMMLUでも全体的な精度低下が見られ、研究チームは「あなたは専門家です」という指示自体は、より良い回答を保証しないと結論付けた。

研究チームは、その背景としてモデル内部の計算資源の配分を挙げた。フー氏らは、「専門家になれという指示によって、本来は事実の想起に使われるべき能力が、指示への適応に使われる可能性がある」と説明している。モデルが新たな専門知識を獲得するわけではないにもかかわらず、専門家らしく振る舞うことに計算資源が割かれることで、精度が不安定になり得るという見方だ。

特にコーディング分野では、一般的な通説と異なる結果となった。研究チームは、AIに熟練プログラマーであると伝えても、コードの品質や有用性は向上しないとした。そのうえで、コード生成では役割付与よりも、プロジェクト要件や作業条件、求める成果物の基準を具体的に示す方が有効だと説明した。

一方、専門家ペルソナ・プロンプトが一概に否定されるわけではない。研究では、AIアラインメント、特に人間の倫理基準に沿って応答を制御する側面では改善の可能性も示された。非倫理的なコンテンツをどの程度遮断できるかを測るJailbreakBenchでは、大幅な改善効果が見られた。正確性の向上とアラインメントの改善は、必ずしも同じ方向に動くわけではないことを示した形だ。

今回の結果は、プロンプト設計の慣行にも影響を与えそうだ。これまで一部ユーザーの間では、モデルに専門家としてのアイデンティティを先に与えることで性能が高まるとの認識が広がり、関連するガイドも少なくなかった。だが今回の実験は、この手法がタスクによっては逆効果になり得ることを示した。

とりわけ、コーディング支援や数学問題の解決のように正答の精度が重要な作業では、「専門家役」を強調するより、必要な形式、制約条件、プロジェクト要件を具体的に示すアプローチの方が有効である可能性が高い。逆に、安全性の制御が重視される環境では、専門家ペルソナが補助的な手段として活用される余地がある。

研究チームは、プロンプト設計で重要なのはモデルにどんな役割を与えるかではなく、ユーザーが求める作業条件をどれだけ明確に伝えられるかにあると示唆している。特に高い精度が求められるタスクほど、「専門家のように答えよ」という包括的な指示よりも、問題の範囲や出力形式、判断基準を具体化した方が、安定した結果につながる可能性が高い。

キーワード

#人工知能 #LLM #プロンプト設計 #専門家ペルソナ・プロンプト #MMLU #MT-Bench #JailbreakBench
Copyright © DigitalToday. All rights reserved. Unauthorized reproduction and redistribution are prohibited.