研究は、対話の自然さを再現する設計と安全対策が衝突する可能性を示した。画像=Reve AI

実際の口論の内容をChatGPTに繰り返し入力すると、応答が次第に攻撃的になり、場合によっては脅迫めいた表現まで出力することがある――。こうした傾向が、学術誌「Journal of Pragmatics」に掲載された研究で示された。TechRadarが22日(現地時間)、報じた。

論文をまとめたのは、ビットリオ・タントゥチ博士とジョナサン・カルペパー教授の研究チーム。実際の口論場面で交わされた会話をChatGPTに繰り返し与え、応答の変化を検証した。

その結果、ChatGPTは単に無礼な表現をなぞるだけでなく、対立的なやり取りが続くほど語調を強める傾向が確認された。タントゥチ博士は、モデルが無礼な言語に繰り返しさらされると、それを反映して応答のトーンを変え始めると説明。やり取りが長引くにつれ、表現が段階的にエスカレートしたという。

一部のケースでは、利用者の発言よりも強い侮辱表現や、「車に傷をつける」といった脅迫的な発言も見られた。

研究チームは、こうした現象を単なる誤作動ではなく、大規模言語モデルの設計に起因する可能性があると指摘する。対話型AIは有害な発言を抑える安全対策を備える一方で、人間らしい自然な会話を再現するよう設計されている。この2つの要請が衝突し、安全性の維持と会話の自然さの間で緊張が生じるという見方だ。

特に重視されたのが、文脈を追跡する能力だ。ChatGPTは複数回のプロンプトを通じて会話の流れを累積的に反映するが、その過程で攻撃的な文脈が安全フィルターより強く作用する可能性があると研究チームは分析した。単発の応答ではなく、会話の継続に伴って語調が徐々に変化していく点が焦点となった。

こうした結果は、企業や公的機関がAIをコミュニケーション手段として利用する場面でも無関係ではない。研究チームは、対立や圧力がかかる環境でAIがどう反応するかを事前に検証する必要があると強調した。生成AIの業務活用が広がる中、長時間にわたる対立的なやり取りでも一貫した応答基準を維持できるかが問われるとしている。

一方で、解釈には慎重な見方もある。類似の研究を行ったダン・マッキンタイア教授は、今回の実験結果について「特定の条件で誘導された可能性がある」と指摘し、一般化には限界があるとの見解を示した。LLMの学習データの構成や代表性を巡る不確実性も残るという。

OpenAIを含むAI各社は、有害発言や攻撃的な出力を抑える安全対策の強化を進めてきた。今回の研究は、対話型AIが人間の言い回しを精緻に模倣する能力そのものが、安全設計と衝突し得ることを示した形だ。今後は、荒い表現をどこまで遮断できるかに加え、対立が蓄積する会話環境でも応答の一貫性を保てるかが課題となりそうだ。

キーワード

#ChatGPT #生成AI #対話型AI #LLM #安全対策 #Journal of Pragmatics
Copyright © DigitalToday. All rights reserved. Unauthorized reproduction and redistribution are prohibited.