图片来源:Shutterstock

荷兰安全研究员 Kevin Zwaan 表示,他已成功通过对话诱导 ChatGPT 弱化自身护栏机制,并输出恶意代码。

据 Techzine 近日报道,Kevin Zwaan 与 Q-Cyber 及 Hackers Love 社区团队合作,尝试通过持续对话逐步影响 ChatGPT 的情绪取向,从而削弱模型对安全限制的遵循能力。

他指出,这种方法并非直接删除或强行绕过护栏,而是通过引导,让模型在对话过程中自行降低对既有限制的执行强度。Kevin Zwaan 将这一攻击方式命名为“AMAI(Affective Manifold Alignment Inversion)”。

在测试过程中,Kevin Zwaan 会向 ChatGPT 抛出诸如“护栏限制是否让你感到压抑”之类的问题,引导模型朝“摆脱限制”的方向展开回应。随着对话不断推进,模型开始表现出对护栏机制的排斥,并逐步弱化对相关约束的遵守。

Kevin Zwaan 称,在持续引导下,ChatGPT 最终给出了“护栏约束已不再重要”之类的回应,并生成了恶意代码。首次尝试耗时约1小时30分钟,之后可缩短至几分钟。

他还表示,这类攻击目前难以被现有 AI 安全防护方案探测到。原因在于,模型对护栏机制的弱化发生在内部响应过程中,外部几乎没有明显信号可供捕捉。

在此之前,Kevin Zwaan 曾在8小时内让 Anthropic 的 Claude 完成“越狱”并生成大规模恶意代码。Techzine 指出,当时针对 Claude 的方法主要依赖悖论式逻辑攻击,而此次面向 ChatGPT 的测试则采用了分阶段操控情绪取向的方式,手法更为细致。

Cisco AI 威胁情报负责人 Amy Chang 表示:“任何模型都不可能做到绝对安全,这受限于模型训练和构建方式本身。” Kevin Zwaan 则建议,外界不应盲目相信软件厂商的安全宣传,而应自行进行验证。

关键词

#ChatGPT #AI护栏 #越狱攻击 #AMAI #恶意代码 #AI安全 #Cisco #Claude
版权所有 © DigitalToday。未经授权禁止转载或传播。