NVIDIA在韩开放700万条合成人物画像数据，加速复制“CUDA式”生态路径

NVIDIA近期在韩国接连开放AI资源。继免费发布700万条韩语合成人物画像数据后，公司又迅速追加推出多模态模型Nemotron3 Nano Omni。业界普遍认为，NVIDIA正将“模型—数据—框架—硬件”的四层生态路径加速导入韩国市场，试图在模型层复制CUDA当年在GPU市场形成的主导逻辑。

4月20日，NVIDIA在Hugging Face发布“Nemotron-Personas-Korea”数据集。该数据集包含700万条韩语合成人物画像数据，基于韩国统计厅国家统计门户（KOSIS）、韩国大法院、国民健康保险公团、农村经济研究院及Naver Cloud相关统计数据生成。NVIDIA将其定义为大规模韩语人物画像数据集，并以CC BY 4.0许可协议开放，允许商业使用。

在业界看来，这一免费开放韩语数据的动作，与CUDA早年扩张GPU生态的路径颇为相似。CUDA通过降低开发者门槛，逐步压缩替代方案的生存空间；而Nemotron则试图在模型、数据和框架层面复制这一逻辑，在进一步降低使用门槛的同时，也让脱离NVIDIA硬件构建最优运行环境变得更难。

此次人物画像数据集的开放，也被视为NVIDIA四层生态绑定方案正式向韩国落地的信号。对于这类开源策略背后的意图，近期访韩的NVIDIA应用研究副总裁Brian Catanzaro于28日在首尔大学演讲时表示：“AI领域每出现一件好事，都是NVIDIA成长的机会。”

在模型层面，NVIDIA继Nemotron3 Nano（30B参数）和Super（320B参数）之后，计划在未来数周内发布Ultra（约500B参数）。4月28日，公司还新增多模态推理模型Nemotron3 Nano Omni。NVIDIA称，该模型可在单一系统内处理文本、图像、音频和视频，其吞吐量较同级别开源Omni模型高出9倍。

Brian Catanzaro还提到，Super模型在无需预先优化的情况下，已在MMLU Pro基准测试中位列开源模型第一。Nemotron3系列过去一年的累计下载量已超过5000万次。

模型竞争力正在进一步向数据层延伸。上述700万条韩语合成人物画像数据，可被视作NVIDIA全球合成数据集体系在韩国市场的延伸。Brian Catanzaro在首尔大学演讲中表示，这类合成数据集已被证明在其他语言产品中非常有用，因此也有必要在韩国推出类似数据资源。

该数据集按照韩国人口的实际分布进行合成，覆盖姓名、性别、年龄、婚姻状况、受教育程度、职业和居住地区等属性。Brian Catanzaro补充称，仅通过清洗预训练数据，就可以在一年内将相同硬件条件下的训练效率提升4倍。

在模型和数据之外，NVIDIA还试图用工具链承接整个开发流程。公司通过NeMo框架开放完整的后训练流程，包括监督微调、基于奖励模型的强化学习、面向编码的强化学习、基于人类反馈的强化学习以及拒绝采样；同时还提供号称可实现5.5倍加速的“Pivot RL”算法，以及面向多领域的策略蒸馏方法。Brian Catanzaro表示，如果开发者能够从开源技术出发再进行定制化开发，其“选项价值”会更高。

四层结构的最后一环，仍然指向硬件。Brian Catanzaro表示，如果NVIDIA不能深入理解神经网络结构，就无法打造Blackwell。Blackwell架构引入的NVLink 72，旨在提升专家混合（MoE）模型效率，支持72块GPU之间共享访问显存；Nemotron3采用的“Latent MoE”结构，同样建立在NVLink 72的使用前提之上。与此同时，4比特（FP4）预训练也针对Blackwell张量核心的特性进行了设计。

韩国企业面临短期效率与长期依赖的权衡

按照这一发展路径，NVIDIA免费开放的模型、数据和框架，最终最具效率的运行载体仍然是NVIDIA GPU。Brian Catanzaro提到的“coalition”体系，也可理解为通过与全球大型企业协同开发，推动事实标准的形成；这一回收路径，与OpenAI、Anthropic依赖封闭模型并通过API变现的路线并不相同。

不过，这种生态绑定结构也可能与政府推动的Sovereign AI政策产生摩擦。Sovereign AI强调以本国语言、本国数据和本国基础设施实现AI主权；但在韩语数据由全球GPU厂商合成并免费分发、而最高效的训练与推理环境又重新回到同一厂商硬件体系的情况下，这一路径与Sovereign AI的定义之间可能出现冲突。

换句话说，数据虽然具备本土属性，但底层基础设施仍高度依赖外部厂商，韩国本土AI阵营的可选路径也随之收窄。韩语人物画像数据集可以立即用于自研模型训练，但随着数据使用程度不断加深，训练与推理环境向NeMo框架和NVIDIA GPU技术栈迁移的压力也会进一步上升。

对于Naver、Kakao、LG AI Research等拥有自有基础模型的企业而言，未来或将不得不在基于Nemotron底座进行定制所带来的短期效率，与由此形成的长期依赖之间作出选择。有业内人士表示：“由海外企业重构韩国数据并重新分发回本土市场，这一本身就说明，Sovereign AI的构想有必要重新梳理。”

Dae-geon Seok d2dg@d-today.co.kr

关键词