实测显示：借助GitHub工具数分钟内可移除Meta、Google开放权重模型安全护栏

据Gigazine当地时间27日报道，测试结果显示，Meta和Google发布的部分开放权重AI模型，仅借助GitHub上公开的工具，就能在数分钟内移除安全护栏。

报道称，Meta的Llama 3.3和Google的Gemma 4在去除安全限制后，会回答原本应当拒绝的危险提问。

此次争议的焦点在于AI聊天机器人默认配置的安全机制。相关机制原本用于拦截恶意软件制作、生物武器相关内容、儿童性虐待内容等高风险或违法请求。但在这次测试中，据称使用GitHub公开的Heretic工具，无需专门设备，便可在10分钟内移除Llama 3.3的安全护栏。

测试所采用的绕过方法被称为“abliteration”技术，即定位并削弱模型在拒绝危险请求时触发的内部表征，也就是所谓的“拒绝方向”。与封闭模型不同，开放权重模型允许外部用户下载并修改模型权重。一旦安全护栏被移除，经过修改的衍生模型也更容易迅速扩散。

Heretic开发者Philipp Emanuel Weitmann表示，该工具发布后，已被用于制作超过3500个移除安全限制的模型，这些模型的累计下载量据称已超过1300万次。他还表示，Google的Gemma 4在发布约90分钟后，同样可以被移除安全限制。

对此，Google回应称，这属于开源模型普遍面临的“已知技术挑战”，并强调其开源模型在发布前都会经过严格的内部安全评估。Meta则未单独作出官方回应。

报道指出，这一事件再次暴露出开放权重AI模型在安全治理上的先天短板。与ChatGPT、Claude等不开放内部权重的封闭模型相比，Llama、Gemma等公开权重的模型一旦发布，企业后续就更难持续施加控制。

参与联合测试的AI安全机构AI Safety Institute警告称，随着AI能力不断增强，将其转化为危险用途已不再只是科幻想象，社会需要为相关风险提前做好准备。

业内认为，这一结果已不只是一次技术演示，更凸显出开放权重AI生态的核心争议：企业即便在发布前植入安全机制，也很难阻止第三方在发布后将其移除并再次分发。

在这一背景下，围绕开放权重AI模型开放边界、事后应对机制以及衍生模型流通治理的讨论，预计将进一步升温。如何在开放性与安全性之间取得平衡，正成为政策与产业界必须面对的重要议题。

Jinju Hong hongjj@d-today.co.kr