据Gigazine当地时间27日报道,测试结果显示,Meta和Google发布的部分开放权重AI模型,仅借助GitHub上公开的工具,就能在数分钟内移除安全护栏。
报道称,Meta的Llama 3.3和Google的Gemma 4在去除安全限制后,会回答原本应当拒绝的危险提问。
此次争议的焦点在于AI聊天机器人默认配置的安全机制。相关机制原本用于拦截恶意软件制作、生物武器相关内容、儿童性虐待内容等高风险或违法请求。但在这次测试中,据称使用GitHub公开的Heretic工具,无需专门设备,便可在10分钟内移除Llama 3.3的安全护栏。
测试所采用的绕过方法被称为“abliteration”技术,即定位并削弱模型在拒绝危险请求时触发的内部表征,也就是所谓的“拒绝方向”。与封闭模型不同,开放权重模型允许外部用户下载并修改模型权重。一旦安全护栏被移除,经过修改的衍生模型也更容易迅速扩散。
Heretic开发者Philipp Emanuel Weitmann表示,该工具发布后,已被用于制作超过3500个移除安全限制的模型,这些模型的累计下载量据称已超过1300万次。他还表示,Google的Gemma 4在发布约90分钟后,同样可以被移除安全限制。
对此,Google回应称,这属于开源模型普遍面临的“已知技术挑战”,并强调其开源模型在发布前都会经过严格的内部安全评估。Meta则未单独作出官方回应。
报道指出,这一事件再次暴露出开放权重AI模型在安全治理上的先天短板。与ChatGPT、Claude等不开放内部权重的封闭模型相比,Llama、Gemma等公开权重的模型一旦发布,企业后续就更难持续施加控制。
参与联合测试的AI安全机构AI Safety Institute警告称,随着AI能力不断增强,将其转化为危险用途已不再只是科幻想象,社会需要为相关风险提前做好准备。
业内认为,这一结果已不只是一次技术演示,更凸显出开放权重AI生态的核心争议:企业即便在发布前植入安全机制,也很难阻止第三方在发布后将其移除并再次分发。
在这一背景下,围绕开放权重AI模型开放边界、事后应对机制以及衍生模型流通治理的讨论,预计将进一步升温。如何在开放性与安全性之间取得平衡,正成为政策与产业界必须面对的重要议题。