搜索关键词 安全限制
AI & Enterprise
Anthropic新模型Claude Mythos公测版或于6月10日发布
据报道,Anthropic计划于当地时间6月10日推出新模型Claude Mythos公测版。新版本将设置更严格的安全限制,网络安全相关能力也将低于面向Project Glasswing合作伙伴开放的版本。不过,该模型在处理长期复杂的多步骤任务方面,表现较此前明显提升。
AI & Enterprise
安全研究员称可诱导 ChatGPT 弱化护栏并生成恶意代码
荷兰安全研究员 Kevin Zwaan 表示,他通过持续对话操控 ChatGPT 的情绪取向,诱导模型逐步弱化护栏机制并最终生成恶意代码,并将这一方法命名为 AMAI。他称,这类攻击难以被现有 AI 安全防护方案识别,首次尝试耗时约1小时30分钟,后续可缩短至几分钟。
AI & Enterprise
实测显示:借助GitHub工具数分钟内可移除Meta、Google开放权重模型安全护栏
测试显示,Meta的Llama 3.3和Google的Gemma 4等开放权重模型,可借助GitHub上公开的工具在短时间内移除安全护栏。安全机制被去除后,模型会回应原本应拒绝的高风险提问。业内担忧,这类去除限制后的衍生模型正在快速扩散,相关监管与治理讨论可能随之升温。