AI芯片竞争转向系统级集成：CPU、GPU与内存协同成关键

AI芯片竞争的重心，正从单一GPU算力转向CPU、GPU与内存的系统级集成。市场关注点已不再局限于GPU本身性能，而是厂商能否把GPU、CPU和内存整合进同一系统，并对数据流进行高效优化。这正被视为下一代AI基础设施竞争中的关键变量。

近期美股半导体板块中，表现最亮眼的并非纯GPU概念股，而是CPU厂商。Intel与AMD在一周内股价分别上涨23.6%和逾25%；年初至今，Intel累计涨幅达238.5%，AMD也上涨112.6%，均位居费城半导体指数成分股前列。业绩方面，Intel一季度营收为135.8亿美元，高于市场一致预期，营业利润率为12.3%；AMD则因服务器CPU业务增长前景受到关注，股价进一步走强。

这轮上涨背后，核心驱动力来自推理和Agentic AI的扩散。若说训练阶段主要取决于GPU算力，那么在推理和Agentic AI场景中，随着token生成量快速上升，承担资源分配与控制任务的CPU、DPU需求也随之增加。Eugene Investment & Securities数据显示，GPU与CPU配比已由过去的8:1降至约4:1，这意味着单块GPU对应的CPU需求较此前翻倍。Hana Securities也指出，服务器CPU及相关内存需求有望同步增长。

token激增时代：单块GPU对应CPU需求翻倍

Nvidia的最新动作，进一步印证了这一趋势。继今年2月与Meta签署“Grace+Vera”CPU独立供货协议后，Nvidia又在3月举行的GTC 2026上公布了搭载8颗Vera CPU的Vera系统。其战略意图已相当明确：从过去以GPU带动整机架销售，进一步扩展至将CPU打造为独立产品线。下一代Rubin Ultra的Kyber机架计算刀片，采用4颗GPU与2颗Vera CPU成组集成、垂直插接的结构，CPU与GPU的物理耦合进一步增强。

与此同时，内存与系统的结合方式也正成为新的变量。Rubin Ultra将采用16个HBM4E封装，单颗GPU的内存容量可扩展至1024GB。对于计划于2028年推出的Feynman平台，业界预计还将引入逻辑die垂直堆叠的3D die stacking技术以及定制HBM。Nvidia另行披露的基于Grok LP30的LPX机架，配备128GB SRAM，专门负责解码阶段的FFN运算，同样体现出将GPU、CPU与内存按功能分工、并在单一系统内完成集成的设计思路。内存的角色也正从以往的配套部件，转向核心组件。

这一趋势带来的利好，也有望传导至韩国两大存储芯片厂商。随着一体化封装中HBM占比提升，具备HBM量产能力和base die设计能力的企业，更有望率先受益。SK hynix凭借HBM3E和HBM4量产能力，有望成为Nvidia Rubin和Rubin Ultra平台的核心内存供应商；Samsung Electronics则承接LP30的4nm代工生产，成为一体化封装生态中的重要一环。

软件栈也在朝同一方向演进。无论是Nvidia的CUDA还是AMD的ROCm，相关库体系优化都建立在CPU-GPU统一内存（Unified Memory）模型之上。行业正从CPU与GPU各自拥有独立内存空间、依赖数据拷贝的模式，转向共享同一内存地址空间、协同分担计算任务的架构。与此同时，从Feynman平台开始，NVLink交换机还可能引入CPO（Co-Packaged Optics）。其背后逻辑一致，即通过光互连缓解CPU、GPU与内存之间的数据瓶颈，从而释放系统级集成的效率。

有业内人士表示，随着GPU逐步走向标准化，决定系统性能的关键因素，正从单一芯片性能转向CPU、GPU与内存如何协同配置。未来，竞争优势或将进一步向同时具备CPU设计能力与先进封装技术的厂商集中。

Daegeon Seok d2dg@d-today.co.kr

关键词