「StarTeaming」論文の第1著者を務めたSelectstarのAIセーフティエンジニア、チョン・ミンジェ氏(写真=Selectstar)

Selectstarは5月14日、独自開発したレッドチーミング手法「StarTeaming」に関する論文が、自然言語処理分野の主要学会「ACL 2026」に採択されたと発表した。

同論文は、大規模言語モデル(LLM)の安全性を検証する自動化レッドチーミング手法を扱う。レッドチーミングは、AIモデルに有害な指示や入力を意図的に与え、脆弱性を見つけ出す安全性評価の手法を指す。

StarTeamingは、統計物理学に基づく数理モデリングを活用し、攻撃戦略とモデル応答の関係を学習する仕組み。状況に応じて有効な戦略を確率的に選択できるという。成功した攻撃パターンの反復に依存しがちな従来手法と比べ、多数の試行錯誤を分析しながら、その場に適した戦略を自律的に導き出せる点が特徴だとしている。

Claude、Gemma、GPT、Llama、Qwenなど17種類のLLMを対象に検証した結果、標準ベンチマークで平均攻撃成功率74.5%を記録した。従来の最高性能とされた「AutoDAN-Turbo」の61.0%を13.5ポイント上回った。

同技術は、SelectstarのAI信頼性検証ソリューション「Datumo Platform」に実装済みだという。電子・家電製造、システムインテグレーション(SI)、ITサービスなどの主要産業に加え、政府主導のAIファウンデーションモデルプロジェクトにも適用しているとした。

論文の第1著者であるSelectstarのAIセーフティエンジニア、チョン・ミンジェ氏は、「AIの脆弱性をより体系的に発見できる枠組みを示したかった」とコメント。「LLMが実際の産業現場で安全に活用されるよう、Datumo Platformの技術高度化に貢献したい」と述べた。

キーワード

#Selectstar #StarTeaming #レッドチーミング #LLM #AI安全性 #ACL 2026
Copyright © DigitalToday. All rights reserved. Unauthorized reproduction and redistribution are prohibited.