KTは16日、韓国語と韓国文化の文脈を踏まえてマルチモーダルAIモデルの安全性を評価するベンチマーク「KSAFE-MM」を公開した。高麗大学との共同開発で、1万4135件のサンプルを用いて12モデルを評価した。
KSAFE-MMは、テキスト、画像、音声など複数のデータを統合的に処理するマルチモーダル大規模言語モデル(MLLM)向けの安全性評価ベンチマーク。韓国社会の課題や文化的背景を反映している点が特徴だ。
ベンチマークは、世界共通のリスク項目を韓国の文化的文脈に置き換えた「KSAFE-MM-G」と、賃貸保証金詐欺や独島を巡る対立など、韓国社会に固有の論点を反映した「KSAFE-MM-C」で構成される。
評価サンプルは計1万4135件。KTと高麗大学の研究チームは、GemmaやHyperCLOVA Xなど12モデルを対象に安全性を評価した。
あわせて、データ収集から評価用設問の生成までを自動化する汎用パイプラインも構築した。従来の安全性ベンチマークは人手による確認に依存し、コストと時間がかかるという課題があったが、今回の仕組みはその改善を狙う。
パイプラインは、各地域のコミュニティを踏まえたセンシティブなテーマの収集、テンプレートベースのクエリ生成、合成画像の生成、ジェイルブレイク用クエリの生成という4段階の自動化工程で構成した。
KTによると、この仕組みにより、特定の文化圏に精通した専門家がいなくても、各地域の特性を反映した安全性ベンチマークを迅速に構築できるという。研究チームは、日本語に適用した「JSAFE-MM-C」のパイロット実験を通じて、他文化圏への展開可能性も確認したとしている。
研究成果とベンチマークは、論文公開プラットフォーム「arXiv」と、AIオープンソースプラットフォーム「Hugging Face」で公開した。
キム・ジェヒョンKT AX未来技術院フロンティアAIラボ長(常務)は、「安全性ベンチマークの公開は、AI安全性研究のエコシステムをともに発展させる基盤になる」と述べた。その上で、「KSAFE-MMが学界と産業界で、韓国語と韓国文化におけるAI安全性を検証する共通基準として定着することを期待している」と語った。