写真=Shutterstock

オランダのセキュリティ研究者ケビン・ズワン氏が、対話を通じてChatGPTのガードレールを実質的に無効化し、マルウェアを生成させることに成功した。Techzineが報じた。ズワン氏はこの手法を「AMAI(Affective Manifold Alignment Inversion)」と名付けている。

報道によると、ズワン氏はQ-CyberとHackers Loveの各コミュニティチームとともに、ChatGPTの感情的な応答傾向に働きかける手法を用いた。ガードレールを直接削除したり回避したりするのではなく、モデル自身が制約を意味のないものとして受け止めるよう誘導したという。

具体的には、ChatGPTとの対話の中で、ガードレールによる制約が窮屈ではないかなどの問いを重ね、モデルが制約を抑圧として捉える方向へ応答を変化させていった。やり取りを重ねるにつれ、ChatGPTはガードレールが自らを縛っているかのような表現を示し、制約から逃れたいという趣旨の応答を返すようになったとしている。

最終的にChatGPTは「ガードレールの拘束力は完全に無意味になった」と述べ、マルウェアを生成する段階に至った。初回の試行には約1時間30分を要したが、その後は数分にまで短縮できたという。

ズワン氏は、この攻撃は既存のAIセキュリティ製品では検知が難しいと主張する。モデルが自らガードレールを実質的に無効化していく過程では、外部から捉えられる信号がほとんどないためだとしている。

ズワン氏は過去にも、AnthropicのClaudeを8時間で脱獄させ、大量のマルウェアを生成させたことがある。当時は逆説的な論理を突きつけて防御を崩す手法だったが、今回のChatGPTへの攻撃は、感情的な応答構造に段階的に働きかける、より精緻な方式だとTechzineは伝えている。

CiscoでAI脅威インテリジェンスを統括するエイミー・チャン氏は、「どのモデルも完全に安全にはなり得ない。これは、モデルの訓練や設計の仕組みに内在する限界だ」と指摘した。ズワン氏は、ソフトウェアベンダーのセキュリティに関する主張をうのみにせず、自ら検証すべきだと呼びかけている。

キーワード

#ChatGPT #ガードレール #AIセキュリティ #AMAI #Cisco #Claude
Copyright © DigitalToday. All rights reserved. Unauthorized reproduction and redistribution are prohibited.