韓国科学技術情報通信部は7日、韓国知能情報社会振興院(NIA)とともに、AIハブの既存学習データを生成AI技術に対応する形で再整備する「AI学習用データ・アップサイクル」事業の公募を開始したと発表した。
対象となるのは、2022年までに構築されたAIハブのデータ691種類。同省はこれらを分析したうえで、外部専門家の検討を経て30種類を最終選定した。内訳は大規模言語モデル(LLM)向けが15種類、フィジカルAI向けが15種類。総事業費は30億ウォンとなる。
同省は、新たにデータを構築する場合に比べ、既存資産を活用することでコストを抑えつつ政策効果を高められるとしている。
LLM向けデータについては、既存のテキストデータを、質問、根拠の検討、誤りの検証、回答の確定といった推論プロセスを含む形に再構成する。単一の正答を提示するだけでなく、多様な判断経路や自己検証の過程を学習できるデータへ拡張する方針だ。
フィジカルAI向けデータでは、既存の画像・映像データを、視覚情報(V)、言語命令(L)、行動・制御(A)を統合した構造へ高度化する。物体認識にとどまらず、時間の経過に伴う状況変化や物体間の相互作用を理解し、目標に基づいた行動を生成できるデータへの拡張を目指す。
チェ・ドンウォン科学技術情報通信部人工知能インフラ政策官は、「今回のアップサイクル事業を通じて、比較的少ない費用で最新の生成AI技術環境に適したAI学習用データを確保できる」と述べた。そのうえで、「これまで蓄積してきたデータ資産を無駄にすることなく、活用価値を一段と高めていく」とした。