AI竞争并不能仅靠扩建数据中心来解决。图片来源:Reve AI

随着人工智能(AI)应用加速普及,电力需求也在快速上升。基于Transformer的大语言模型(LLM)在算力和能耗上的瓶颈正日益显现,单靠扩建数据中心,已越来越难以支撑持续增长的计算需求。在这一背景下,行业开始将目光转向更重视电力效率的“后Transformer”架构,试图寻找替代方案。

据IT媒体TechRadar当地时间9日报道,当前问题的核心在于,AI模型性能提升仍高度依赖“更多算力、更多层数和更多数据”。Bain & Company预计,到2030年,数据中心相关年度支出将达到5000亿美元。由SoftBank、OpenAI和Oracle参与的“Stargate”构想,也被视为应对算力需求增长的举措。与此同时,电网运营商警告称,AI需求正在挤压电力供给,可能成为能源市场的不稳定因素。

近期快速普及的推理模型,进一步放大了电力负担。研究显示,GPT-4o在长提示词场景下耗电约为0.42Wh,DeepSeek-R1超过33Wh,GPT-4.5约为30Wh。这意味着,一次长提示词推理的耗电量,可能高于一次智能手机充电的耗电量。

业内普遍认为,这一成本结构部分源于Transformer架构本身。随着数据规模扩大,计算量呈指数级增长,对高速内存和大规模参数计算的需求也随之上升;而在推理能力增强后,token消耗也明显增加。早期模型通常只需输出数百个token,而近年的模型为了分步骤生成“思考过程”,往往会消耗数千个推理token。

不仅如此,单纯依靠扩大模型规模所带来的边际收益,也被认为已不如从前。业界对于Transformer模型在发展到一定阶段后,性能提升接近上限的看法正在增多。

在此背景下,替代路径之一是模拟人脑的工作机制。人脑由不足1000亿个神经元和数百兆个突触构成网络,却能够在约20W功耗下运行。基于这一思路提出的“Dragon Hatchling”(BDH)架构,被视为代表性案例。该架构不再同时调用全部参数,而是根据任务选择性激活相关“人工神经元”,并引入突触可塑性,即连接强度会随着使用而变化,以提高学习效率。

这一架构强调无需反复驱动整个模型,只调用完成任务所需的部分,从而降低推理成本和token消耗。同时,它还具备在实际使用中持续积累能力的特点,减少对定期大规模再训练的依赖。对企业而言,这有助于缓解成本压力;对AI企业而言,也被视为兼顾性能与能效的方案。

此外,与现有基础设施的兼容性也是关键因素。只有在无需全面更换基础设施的前提下实现应用,新架构的落地可行性才会更高。

总体来看,AI带来的电力问题,正从环保议题演变为经济性问题。业内认为,一旦出现能够大幅压缩推理成本的新架构,AI竞争的衡量标准本身也可能随之改变。接下来,关键在于“后Transformer”架构能否在真实环境中同时验证性能、成本与兼容性。

关键词

#AI能耗 #Transformer #大语言模型 #推理模型 #数据中心 #GPT-4o #GPT-4.5 #DeepSeek-R1 #Dragon Hatchling(BDH)架构
版权所有 © DigitalToday。未经授权禁止转载或传播。