据《金融时报》13日(当地时间)报道,NVIDIA正筹备推出一款面向AI推理场景的专用芯片,以提升模型响应速度。该产品预计将由NVIDIA CEO Jensen Huang在16日(当地时间)开幕的GTC开发者大会上正式发布。
报道称,这款芯片被视为NVIDIA去年12月斥资约200亿美元将Grok创始团队收入麾下后的首项成果之一。NVIDIA计划将Grok开发的语言处理器(LPU)纳入新一代产品布局,并与下一代主力GPU“Vera Rubin”一并推进。Grok的LPU主打复杂AI查询场景下的快速响应,并与Samsung合作生产。
NVIDIA此前一直强调,单块GPU即可同时承担训练和推理任务。不过,随着Agentic Coding System等AI工具日趋复杂,公司的产品策略也在相应调整。
Bank of America分析师预计,到2030年,AI数据中心市场规模将达到约1.2万亿美元,届时推理相关支出占比有望升至75%。
报道称,NVIDIA即将推出的新芯片将采用SRAM,而不是高带宽内存(HBM)。在AI需求持续攀升的背景下,HBM价格高企,且Samsung Electronics、SK hynix、Micron等存储厂商的供给难以完全跟上需求,供应紧张局面持续。相比之下,SRAM供应更为顺畅,也更适合满足AI推理任务对速度和时延的要求。
随着NVIDIA加码布局,AI推理芯片市场的竞争预计将进一步升温。Amazon Web Services(AWS)近日也宣布,与AI半导体初创公司Cerebras达成多年合作,将后者的推理芯片引入数据中心。Meta同样针对AI工作负载,发布了4款自研定制芯片。