NVIDIAが韓国でAI基盤の囲い込みを強めている。4月に韓国語の合成ペルソナ700万件を無償公開したのに続き、マルチモーダルモデル「Nemotron3 Nano Omni」も投入した。モデル、データ、フレームワーク、ハードウェアまでを一体で押さえる動きで、CUDAでGPU市場を握った手法をモデル層にも広げつつあるとの見方が出ている。
NVIDIAは4月20日、韓国語の合成ペルソナ700万件を収録したデータセット「Nemotron-Personas-Korea」をHugging Faceで公開した。統計庁の国家統計ポータル(KOSIS)、大法院、国民健康保険公団、農村経済研究院、Naver Cloudの統計を基に合成したもので、同社によると大規模な韓国語ペルソナデータセットとしては初めて。ライセンスはCC BY 4.0で、商用利用も可能としている。
韓国語データを無償で開放する今回の動きは、CUDAの普及戦略を想起させる。CUDAは開発者の参入障壁を下げることで利用を広げ、結果として他の選択肢を狭めてきた。Nemotronでも、モデル、データ、フレームワークを無償で提供する一方、最適な実行環境はNVIDIA製ハードウェアに集約されやすい構図が浮かぶ。
こうした動きは、モデル、データセット、フレームワーク、ハードウェアを束ねた4層の囲い込みを韓国市場で本格化させるシグナルと受け止められている。オープンソース戦略の狙いについて、最近訪韓したNVIDIAの応用研究担当副社長、ブライアン・カタンザロ氏は28日のソウル大学での講演で、「AI分野で良いことが起きるたびに、それはNVIDIAが成長する機会になる」と述べた。
まずモデルでは、NVIDIAはNemotron3 Nano(30B)、Super(320B)に続き、Ultra(約500B)を数週間以内に公開する計画だ。28日にはマルチモーダル推論モデル「Nemotron3 Nano Omni」も追加した。NVIDIAによると、Omniはテキスト、画像、音声、動画を単一システムで処理でき、同種のオープンなOmniモデルと比べてスループットが9倍高いという。
カタンザロ氏は、Superについても追加の最適化なしでMMLU Proベンチマークのオープンモデル首位を記録したと説明した。Nemotron3ファミリーの累計ダウンロード数は、この1年で5000万件を超えたとしている。
モデル競争力の土台となるのがデータだ。韓国語の合成ペルソナ700万件は、NVIDIAがグローバルで展開してきた合成データセット群の韓国版といえる。カタンザロ氏はソウル大学での講演で、「こうした合成データセットは他言語圏の製品でも非常に有用で、韓国でも整備すべきだと判断した」と語った。
氏名、性別、年齢、婚姻状況、教育水準、職業、居住地域といった属性は、韓国の人口分布に合わせて合成した。カタンザロ氏は、事前学習データセットの精製だけでも、同一ハードウェアでの学習効率が1年で4倍改善したと付け加えた。
強力なモデルと精緻なデータセットがそろえば、次に重要になるのが活用のためのツール群だ。その役割を担うのが「NeMo」フレームワークである。NVIDIAは、教師ありファインチューニングから報酬モデルベースの強化学習、コーディング特化の強化学習、人間のフィードバックを用いた強化学習、リジェクトサンプリングに至る後学習パイプライン全体に加え、5.5倍高速化をうたうアルゴリズム「Pivot RL」や、多ドメイン方策蒸留手法も公開した。カタンザロ氏は「オープンソース技術を起点にカスタマイズできれば、開発者の選択肢は大きく広がる」と強調した。
最後に残るのが、無償公開の外側にあるハードウェア依存だ。カタンザロ氏は「NVIDIAがニューラルネットワークの構造を深く理解していなければ、Blackwellは作れなかったはずだ」と述べた。Blackwell世代で導入したNVLink 72については、72基のGPUのメモリを相互参照できる構造で、Mixture of Experts(MoE)モデルの効率最大化を前提に設計したと説明。Nemotron3の「Latent MoE」構造もNVLink 72の活用を前提としており、4ビット(FP4)の事前学習もBlackwellのTensor Core特性に合わせて設計したという。
韓国企業、短期効率と長期依存の間で判断迫られる
結局のところ、NVIDIAが無償公開したモデル、データ、フレームワークを最も効率よく動かせるのはNVIDIAのGPUだという構図になる。カタンザロ氏が説明した「coalition」体制も、グローバル大企業との共同開発を通じて事実上の標準形成を狙う段階とみられる。クローズドモデルを軸にAPI売上を回収するOpenAIやAnthropicとは、収益化の構造が対照的だ。
こうした囲い込みは、政府が推進してきたソブリンAI政策の前提と摩擦を生む可能性がある。ソブリンAIは、自国語、自国データ、自国インフラによってAI主権を確保するという考え方だ。一方で、韓国語データをグローバルGPU企業が合成して無償配布し、学習と推論の最適解が同社ハードウェアへ集約される構図は、ソブリンAIの定義と衝突しかねない。
データの「韓国性」とインフラの「外国性」が切り分けられることで、韓国のAI企業が取れる選択肢も狭まる。韓国語のペルソナデータセットは自社モデルの学習にすぐ使える資源だが、活用が進むほど、学習・推論環境をNeMoとNVIDIA GPUのスタックへ寄せる圧力も強まりそうだ。
今後、Naver、Kakao、LG AI Researchなど独自の基盤モデルを持つ陣営は、Nemotronベースのカスタマイズによる短期的な効率と、長期的な依存リスクの間で判断を迫られる可能性がある。業界関係者は「韓国のデータを外国企業が再構成し、それを国内に再配布する構造そのものが、ソブリンAI構想の再設計の必要性を示している」と指摘した。