AI数据与可信评测企业Selectstar于5月14日宣布,公司自研红队评测技术“StarTeaming”相关论文已被自然语言处理领域顶级学术会议ACL 2026接收。
据了解,该论文聚焦大语言模型安全评估,提出了一套自动化红队方法。所谓红队评测,是指通过构造恶意或高风险指令,主动测试AI模型的薄弱环节,是当前常见的安全评估手段之一。
Selectstar介绍称,“StarTeaming”基于统计物理学的数学建模方法,学习攻击策略与模型响应之间的关系,并以概率方式选择最优策略。与大多依赖既往成功样本的现有方法不同,“StarTeaming”会综合分析大量尝试及失败样本,自主寻找更适配具体场景的攻击策略。
在针对Claude、Gemma、GPT、Llama、Qwen等17款大语言模型的测试中,“StarTeaming”在标准基准测试中的平均攻击成功率达到74.5%,较此前表现最优的方法AutoDAN-Turbo(61.0%)高出13.5个百分点。
目前,该技术已集成至Selectstar的AI可信验证解决方案“Datumo平台”,并应用于韩国电子与家电制造、系统集成(SI)及IT服务等行业,以及政府主导的自主AI基础模型项目。
“StarTeaming”论文第一作者、Selectstar AI Safety工程师Minjae Jeong表示,这项研究旨在提出一套更系统的AI薄弱点发现框架。未来,公司还将以此推动“Datumo平台”持续升级,支持大语言模型在真实产业场景中的安全落地。
记者信息