Microsoft在分析中纳入真实服务环境下的GPU利用率和批处理等因素,重新测算AI推理用电。图片来源:Shutterstock

Microsoft发布的一项最新测算显示,大语言模型(LLM)单次请求的耗电量,可能远低于业内长期流传的相关估算。该公司表示,如果按照真实服务环境测算,AI每次请求的耗电量可能仅为既有估算的四分之一到二十分之一。

据在线媒体Gigazine当地时间16日报道,Microsoft近日在其云计算博客中发布了有关AI推理电力效率的分析结果。

Microsoft称,若将单次请求的平均回复长度设定为约300个token,其中位耗电量约为0.31Wh,中间50%的测算结果落在0.16至0.60Wh之间。这大致相当于一台1000W微波炉运行约0.6至2秒所消耗的电量。

随着生成式AI持续普及,外界对数据中心电力需求快速攀升的担忧也在升温。用户通过Copilot或各类聊天机器人发起邮件摘要、会议纪要整理、代码编写等请求时,数据中心都需要执行LLM推理;回复越长、处理的token越多,耗电也会随之增加。

Microsoft指出,既有能耗估算并未充分反映实际运营环境。公司解释称,批处理机制以及大规模服务场景下的GPU利用率,在以往测算中往往没有被充分纳入;此外,统计口径是只计算GPU,还是同时计入CPU和冷却设备,也会对结果造成显著影响。

根据Microsoft披露的假设条件,研究团队以一台配备8块NVIDIA H100 GPU的服务器为基础,运行一款参数规模超过2000亿的大模型,并结合token处理速度、服务器功耗以及数据中心电力使用效率(PUE)进行测算,以尽可能贴近真实服务环境。

Microsoft还披露了冷却环节的耗水估算:单次请求的耗水量约为0至0.067mL;按中位值计算,不到一茶匙的百分之一。

不过,Microsoft也强调,不同类型的AI请求在资源消耗上差异明显。若涉及长代码生成或多步骤推理等场景,回复长度增至约5000个token时,单次请求的中位耗电量将升至3.91Wh,约为普通请求的13倍。

公司认为,随着回复变长,AI服务的耗电会快速上升。未来AI服务的能效表现,可能更多取决于处理方式和回复规模,而不是单纯由请求次数决定。

从整体服务规模来看,这一差异更加明显。若每天处理10亿次普通请求,所需电量约为0.7GWh;在进一步优化的情况下,可能降至约0.3GWh。若其中10%的请求转为长推理任务,用电需求则将升至约1.7GWh,即使经过优化,仍约需0.8GWh。

Microsoft预计,后续在能效方面仍有较大提升空间。公司称,通过更多采用小模型、优化基础设施,以及引入下一代GPU和自研AI芯片,单次请求的能效有望再提升8至20倍。

此次发布也被视为Microsoft对AI用电争议的直接回应。此前,业内广泛流传的说法包括“AI单次请求需消耗数Wh电量”以及“ChatGPT单次提问的耗电量约为谷歌搜索的10倍”。

Microsoft表示,如果将真实服务环境中的GPU利用率和批处理因素纳入计算,这类估算可能被高估了4至20倍。但公司同时也指出,长回复和复杂推理会显著推高耗电,AI能耗讨论的重点也应从“请求次数”转向“运营方式和回复长度”。

关键词

#Microsoft #大语言模型 #AI推理 #推理能耗 #GPU利用率 #批处理 #NVIDIA H100 #PUE #数据中心
版权所有 © DigitalToday。未经授权禁止转载或传播。