过去,AI基础设施成本中占大头的一直是NVIDIA GPU,如今内存也开始走到台前,成为影响成本结构的关键因素。
随着超大规模云厂商加快扩建数据中心,DRAM芯片价格较上年同期涨约7倍。在这一背景下,围绕缓存策略、数据调度时机和内存配置展开优化的“内存编排”,正成为企业控制AI基础设施成本的重要能力。TechCrunch于2月17日(当地时间)对此进行了报道。
报道指出,内存编排能力更强的企业,能够以更少的token完成同样的查询请求,从而直接影响相关产品的收入和利润空间。
半导体分析师Dan O’Laughlin在Substack上发布的对Weka AI高管Val Bercovici的采访中,也提到了内存芯片的重要性。
Bercovici特别提到,Anthropic有关提示词缓存的文档正变得越来越复杂。他表示:“从Anthropic提示词缓存的定价页面来看,6至7个月前还只是简单地告诉用户‘使用缓存更便宜’,如今已经细化到需要提前购买多少缓存写入量,复杂程度几乎像一本百科全书。”
问题的关键在于,Claude会将提示词在缓存中保留多长时间。用户可以按5分钟、1小时等不同时长购买缓存服务。缓存管理得当,确实有助于降低成本;但一旦新数据写入,旧数据也可能被置换出去,从而带来新的问题。
这类痛点也为初创公司带来了机会。以缓存优化为核心能力的TensorMesh等企业,正因此受到关注。
与此同时,数据中心如何在DRAM与HBM之间进行取舍,也成为重要课题,包括何时以DRAM替代HBM,以及如何构建模型集群以更好利用共享缓存。
TechCrunch认为,企业若能提升内存编排能力,不仅可以减少token消耗、压低推理成本,还有望借助服务器成本下降,提高AI应用实现盈利的可能性。