Selectstarの「StarTeaming」論文、ACL 2026に採択

生成中...

Seulgi Son

公開 2026-05-14 09:36:39

この記事を共有

「StarTeaming」論文の第1著者を務めたSelectstarのAIセーフティエンジニア、チョン・ミンジェ氏（写真=Selectstar）

Selectstarは5月14日、独自開発したレッドチーミング手法「StarTeaming」に関する論文が、自然言語処理分野の主要学会「ACL 2026」に採択されたと発表した。

同論文は、大規模言語モデル（LLM）の安全性を検証する自動化レッドチーミング手法を扱う。レッドチーミングは、AIモデルに有害な指示や入力を意図的に与え、脆弱性を見つけ出す安全性評価の手法を指す。

StarTeamingは、統計物理学に基づく数理モデリングを活用し、攻撃戦略とモデル応答の関係を学習する仕組み。状況に応じて有効な戦略を確率的に選択できるという。成功した攻撃パターンの反復に依存しがちな従来手法と比べ、多数の試行錯誤を分析しながら、その場に適した戦略を自律的に導き出せる点が特徴だとしている。

Claude、Gemma、GPT、Llama、Qwenなど17種類のLLMを対象に検証した結果、標準ベンチマークで平均攻撃成功率74.5%を記録した。従来の最高性能とされた「AutoDAN-Turbo」の61.0%を13.5ポイント上回った。

同技術は、SelectstarのAI信頼性検証ソリューション「Datumo Platform」に実装済みだという。電子・家電製造、システムインテグレーション（SI）、ITサービスなどの主要産業に加え、政府主導のAIファウンデーションモデルプロジェクトにも適用しているとした。

論文の第1著者であるSelectstarのAIセーフティエンジニア、チョン・ミンジェ氏は、「AIの脆弱性をより体系的に発見できる枠組みを示したかった」とコメント。「LLMが実際の産業現場で安全に活用されるよう、Datumo Platformの技術高度化に貢献したい」と述べた。

Seulgi Son sageson@d-today.co.kr

Selectstarの「StarTeaming」論文、ACL 2026に採択

LLM向け安全性評価を自動化、標準ベンチマークで攻撃成功率74.5%

生成中...

AI要約

Selectstarは、独自開発したLLM向けレッドチーミング手法「StarTeaming」に関する論文がACL 2026に採択されたと発表した。標準ベンチマークでは平均攻撃成功率74.5%を記録した。

キーワード