“StarTeaming”论文第一作者、Selectstar AI Safety工程师Minjae Jeong。图片来源:Selectstar

AI数据与可信评测企业Selectstar于5月14日宣布,公司自研红队评测技术“StarTeaming”相关论文已被自然语言处理领域顶级学术会议ACL 2026接收。

据了解,该论文聚焦大语言模型安全评估,提出了一套自动化红队方法。所谓红队评测,是指通过构造恶意或高风险指令,主动测试AI模型的薄弱环节,是当前常见的安全评估手段之一。

Selectstar介绍称,“StarTeaming”基于统计物理学的数学建模方法,学习攻击策略与模型响应之间的关系,并以概率方式选择最优策略。与大多依赖既往成功样本的现有方法不同,“StarTeaming”会综合分析大量尝试及失败样本,自主寻找更适配具体场景的攻击策略。

在针对Claude、Gemma、GPT、Llama、Qwen等17款大语言模型的测试中,“StarTeaming”在标准基准测试中的平均攻击成功率达到74.5%,较此前表现最优的方法AutoDAN-Turbo(61.0%)高出13.5个百分点。

目前,该技术已集成至Selectstar的AI可信验证解决方案“Datumo平台”,并应用于韩国电子与家电制造、系统集成(SI)及IT服务等行业,以及政府主导的自主AI基础模型项目。

“StarTeaming”论文第一作者、Selectstar AI Safety工程师Minjae Jeong表示,这项研究旨在提出一套更系统的AI薄弱点发现框架。未来,公司还将以此推动“Datumo平台”持续升级,支持大语言模型在真实产业场景中的安全落地。

关键词

#Selectstar #StarTeaming #红队评测 #ACL 2026 #自然语言处理 #大语言模型 #AI安全 #Datumo平台 #AutoDAN-Turbo
版权所有 © DigitalToday。未经授权禁止转载或传播。