Selectstar“StarTeaming”论文入选ACL 2026

生成中...

Seulgi Son

发布时间 2026-05-14 09:36:39

搜索关键词

AI数据与可信评测企业Selectstar于5月14日宣布，公司自研红队评测技术“StarTeaming”相关论文已被自然语言处理领域顶级学术会议ACL 2026接收。

据了解，该论文聚焦大语言模型安全评估，提出了一套自动化红队方法。所谓红队评测，是指通过构造恶意或高风险指令，主动测试AI模型的薄弱环节，是当前常见的安全评估手段之一。

Selectstar介绍称，“StarTeaming”基于统计物理学的数学建模方法，学习攻击策略与模型响应之间的关系，并以概率方式选择最优策略。与大多依赖既往成功样本的现有方法不同，“StarTeaming”会综合分析大量尝试及失败样本，自主寻找更适配具体场景的攻击策略。

在针对Claude、Gemma、GPT、Llama、Qwen等17款大语言模型的测试中，“StarTeaming”在标准基准测试中的平均攻击成功率达到74.5%，较此前表现最优的方法AutoDAN-Turbo（61.0%）高出13.5个百分点。

目前，该技术已集成至Selectstar的AI可信验证解决方案“Datumo平台”，并应用于韩国电子与家电制造、系统集成（SI）及IT服务等行业，以及政府主导的自主AI基础模型项目。

“StarTeaming”论文第一作者、Selectstar AI Safety工程师Minjae Jeong表示，这项研究旨在提出一套更系统的AI薄弱点发现框架。未来，公司还将以此推动“Datumo平台”持续升级，支持大语言模型在真实产业场景中的安全落地。

Seulgi Son sageson@d-today.co.kr