LLM、同一プロンプトの反復で正答率向上　Google Researchが報告

LLMは、同じ指示でも文の構成や情報の配置によって回答が変わることがある。写真=Shutterstock

大規模言語モデル（LLM）に同じプロンプトを2回続けて入力するだけで、正答率が有意に向上する可能性があることが分かった。Google Researchの研究チームが報告したもので、GeminiやGPT-4o、Claude、DeepSeekを含む7モデルを対象に検証した結果、70条件中47条件で有意な改善が確認され、性能低下は見られなかった。

この研究は、1月25日付でオンラインメディア「Gigazine」が取り上げた。手法の名称は「Prompt Repetition（プロンプト反復）」で、同じ指示文や設問をそのまま2回連続で入力する。研究チームによると、狙いは単なる強調ではなく、LLMがテキストを順次処理する過程で生じる条件や情報の取りこぼしを減らすことにある。

LLMはテキストを順に処理する特性上、最初の読み取りで後半にある条件や重要な情報を拾いきれない場合がある。プロンプトを反復すると、2回目の処理時には先行する情報がすでに文脈内にあるため、条件を参照しやすくなるという。研究チームは、こうした構造によって指示や条件の読み落としが減り、結果として正答率の向上につながると説明している。

評価は、Gemini、GPT-4o、Claude、DeepSeekなど主要7モデルを対象に、複数のベンチマークで実施した。その結果、全70条件のうち47条件で、プロンプト反復を適用した際に正答率が有意に改善した。反対に、性能が悪化したケースは確認されなかった。

特に効果が目立ったのは、長い入力文や、選択肢が先に示される設問など、文脈の整理が難しいケースだった。研究チームが例として挙げた「NameIndex」課題では、50人分の名前リストから25番目の名前を答えるタスクで、Gemini 2.0 Flash Liteの正答率は単一入力では21％だったが、同じプロンプトを2回入力すると97％まで改善した。長文入力で着目すべき箇所を見失うミスを、反復によって補える可能性を示したとしている。

入力が長くなることでコストや待ち時間が増えるとの懸念については、「多くの条件で応答時間の増加は見られなかった」とした。LLMの処理では、入力を読む段階を並列化できるためだと説明している。

一方で、「Think step by step」のように推論を促す指示では、効果が出ないか、改善幅が小さい傾向も確認された。こうした設定では、モデルが回答生成の途中で質問を言い換えたり要点を繰り返したりすることがあり、入力の反復が効率的に働かない可能性があるという。実際、推論を促さない条件に比べると、改善幅が限定的なケースが多かった。

研究チームは、重要なのは同じ内容を繰り返すことであり、単に入力を長くするだけでは同様の効果は得られなかったとも付け加えた。今回の結果は、複雑なチューニングを施さなくても、LLMの性能改善を図れる実践的な手法になり得ることを示している。

Jinju Hong hongjj@d-today.co.kr

キーワード