AI大模型开发商Motif Technologies正尝试以自研平台替代NVIDIA的软件工具链,以在大模型研发上建立差异化优势。
该公司认为,如果仅依赖NVIDIA提供的通用工具,在算力不占优势的情况下,很难与大型科技公司正面竞争。基于这一判断,Motif将重点放在通过自研工具提升开发自主性,并兼顾模型构建与运营的成本效率。
4月22日,在首尔D.CAMP麻浦举行的“NVIDIA Nemotron Developer Days Seoul 2026”圆桌讨论上,Motif Technologies CEO Lim Jeonghwan表示,公司之所以选择自建工具链,核心原因在于“自主性”。
他指出,从开发者角度看,NVIDIA现有工具的灵活性有限,研发流程也更容易被锁定在NVIDIA生态之中。
目前,CUDA已成为AI训练大规模计算的事实标准,但其运行基础仍是NVIDIA GPU。围绕CUDA,NVIDIA还提供了训练框架NeMo、Megatron-LM,推理优化工具TensorRT-LLM,以及数据清洗方案NeMo Curator等。也因此,行业在导入NVIDIA GPU时,往往会一并采用其整套软件栈。
韩国其他大模型开发机构多数也沿用了这一路径。SK Telecom在超大规模模型A.X K1训练中采用了Megatron-LM和NeMo Curator;LG AI Research在EXAONE开发全流程中使用了NeMo框架和TensorRT-LLM。
不过,Motif并未排斥NVIDIA硬件和CUDA本身。Lim Jeonghwan将这一策略比作“用iPhone,但不用自带备忘录”,也就是“GPU和CUDA照常使用,但不采用其上层提供的模型开发工具”。
在他看来,如果直接采用NVIDIA的软件栈,模型研发往往会被带入其既有架构和方法论。若要适配NeMo体系,还需要投入大量时间修改代码,内部也存在不少条件分支需要处理,与其如此,不如自行开发。
Motif认为,自研软件路线正是其打造更强竞争力的重要差异化所在。Lim Jeonghwan表示,在架构、数据和方法论都相同的前提下,算力较弱的一方很难胜出,因此必须在其他维度做出不同尝试。
他进一步称,若始终停留在NVIDIA软件生态内,最终采用的仍会是相近的架构和方法论,自然难以在算力更强的大型科技公司面前建立优势。
这一判断也与Lim Jeonghwan过往在AI基础设施公司Moreh的开发经历有关。Moreh曾自研基于AMD GPU的训练平台MoAI;在担任Moreh AI Director期间,Lim Jeonghwan主导了基于AMD MI250 GPU的MoMo-70B模型开发。
据公司介绍,Motif自研软件技术的核心之一,是其自行设计的注意力结构GDA(Grouped Differential Attention,分组差分注意力)。注意力机制是模型理解句子中词语关系的关键计算环节,但也容易对无效信息产生响应,带来噪声。Motif表示,GDA通过在保留有效信号和抑制噪声的不同分组之间进行非对称算力分配,来改善这一问题。
在训练算法方面,Motif没有采用多数AI企业使用的标准算法AdamW,而是选择了Muon。公司称,Muon可在训练过程中调整参数更新方向,减少方向冲突,从而在相同算力投入下提升有效学习效率。Motif还对这一算法进行了并行化,使其能够在数千块GPU环境中运行。
在推理阶段,Motif表示,公司以开源vLLM替代NVIDIA TensorRT-LLM,并以自研方案替换关键注意力计算模块。