AI推理能耗激增，行业转向“后Transformer”架构

随着人工智能（AI）应用加速普及，电力需求也在快速上升。基于Transformer的大语言模型（LLM）在算力和能耗上的瓶颈正日益显现，单靠扩建数据中心，已越来越难以支撑持续增长的计算需求。在这一背景下，行业开始将目光转向更重视电力效率的“后Transformer”架构，试图寻找替代方案。

据IT媒体TechRadar当地时间9日报道，当前问题的核心在于，AI模型性能提升仍高度依赖“更多算力、更多层数和更多数据”。Bain & Company预计，到2030年，数据中心相关年度支出将达到5000亿美元。由SoftBank、OpenAI和Oracle参与的“Stargate”构想，也被视为应对算力需求增长的举措。与此同时，电网运营商警告称，AI需求正在挤压电力供给，可能成为能源市场的不稳定因素。

近期快速普及的推理模型，进一步放大了电力负担。研究显示，GPT-4o在长提示词场景下耗电约为0.42Wh，DeepSeek-R1超过33Wh，GPT-4.5约为30Wh。这意味着，一次长提示词推理的耗电量，可能高于一次智能手机充电的耗电量。

业内普遍认为，这一成本结构部分源于Transformer架构本身。随着数据规模扩大，计算量呈指数级增长，对高速内存和大规模参数计算的需求也随之上升；而在推理能力增强后，token消耗也明显增加。早期模型通常只需输出数百个token，而近年的模型为了分步骤生成“思考过程”，往往会消耗数千个推理token。

不仅如此，单纯依靠扩大模型规模所带来的边际收益，也被认为已不如从前。业界对于Transformer模型在发展到一定阶段后，性能提升接近上限的看法正在增多。

在此背景下，替代路径之一是模拟人脑的工作机制。人脑由不足1000亿个神经元和数百兆个突触构成网络，却能够在约20W功耗下运行。基于这一思路提出的“Dragon Hatchling”（BDH）架构，被视为代表性案例。该架构不再同时调用全部参数，而是根据任务选择性激活相关“人工神经元”，并引入突触可塑性，即连接强度会随着使用而变化，以提高学习效率。

这一架构强调无需反复驱动整个模型，只调用完成任务所需的部分，从而降低推理成本和token消耗。同时，它还具备在实际使用中持续积累能力的特点，减少对定期大规模再训练的依赖。对企业而言，这有助于缓解成本压力；对AI企业而言，也被视为兼顾性能与能效的方案。

此外，与现有基础设施的兼容性也是关键因素。只有在无需全面更换基础设施的前提下实现应用，新架构的落地可行性才会更高。

总体来看，AI带来的电力问题，正从环保议题演变为经济性问题。业内认为，一旦出现能够大幅压缩推理成本的新架构，AI竞争的衡量标准本身也可能随之改变。接下来，关键在于“后Transformer”架构能否在真实环境中同时验证性能、成本与兼容性。

Jinju Hong hongjj@d-today.co.kr

关键词