Microsoft称AI单次请求耗电或远低于既有估算，回应“ChatGPT单次提问的耗电量约为谷歌搜索的10倍”说法

Microsoft发布的一项最新测算显示，大语言模型（LLM）单次请求的耗电量，可能远低于业内长期流传的相关估算。该公司表示，如果按照真实服务环境测算，AI每次请求的耗电量可能仅为既有估算的四分之一到二十分之一。

据在线媒体Gigazine当地时间16日报道，Microsoft近日在其云计算博客中发布了有关AI推理电力效率的分析结果。

Microsoft称，若将单次请求的平均回复长度设定为约300个token，其中位耗电量约为0.31Wh，中间50%的测算结果落在0.16至0.60Wh之间。这大致相当于一台1000W微波炉运行约0.6至2秒所消耗的电量。

随着生成式AI持续普及，外界对数据中心电力需求快速攀升的担忧也在升温。用户通过Copilot或各类聊天机器人发起邮件摘要、会议纪要整理、代码编写等请求时，数据中心都需要执行LLM推理；回复越长、处理的token越多，耗电也会随之增加。

Microsoft指出，既有能耗估算并未充分反映实际运营环境。公司解释称，批处理机制以及大规模服务场景下的GPU利用率，在以往测算中往往没有被充分纳入；此外，统计口径是只计算GPU，还是同时计入CPU和冷却设备，也会对结果造成显著影响。

根据Microsoft披露的假设条件，研究团队以一台配备8块NVIDIA H100 GPU的服务器为基础，运行一款参数规模超过2000亿的大模型，并结合token处理速度、服务器功耗以及数据中心电力使用效率（PUE）进行测算，以尽可能贴近真实服务环境。

Microsoft还披露了冷却环节的耗水估算：单次请求的耗水量约为0至0.067mL；按中位值计算，不到一茶匙的百分之一。

不过，Microsoft也强调，不同类型的AI请求在资源消耗上差异明显。若涉及长代码生成或多步骤推理等场景，回复长度增至约5000个token时，单次请求的中位耗电量将升至3.91Wh，约为普通请求的13倍。

公司认为，随着回复变长，AI服务的耗电会快速上升。未来AI服务的能效表现，可能更多取决于处理方式和回复规模，而不是单纯由请求次数决定。

从整体服务规模来看，这一差异更加明显。若每天处理10亿次普通请求，所需电量约为0.7GWh；在进一步优化的情况下，可能降至约0.3GWh。若其中10%的请求转为长推理任务，用电需求则将升至约1.7GWh，即使经过优化，仍约需0.8GWh。

Microsoft预计，后续在能效方面仍有较大提升空间。公司称，通过更多采用小模型、优化基础设施，以及引入下一代GPU和自研AI芯片，单次请求的能效有望再提升8至20倍。

此次发布也被视为Microsoft对AI用电争议的直接回应。此前，业内广泛流传的说法包括“AI单次请求需消耗数Wh电量”以及“ChatGPT单次提问的耗电量约为谷歌搜索的10倍”。

Microsoft表示，如果将真实服务环境中的GPU利用率和批处理因素纳入计算，这类估算可能被高估了4至20倍。但公司同时也指出，长回复和复杂推理会显著推高耗电，AI能耗讨论的重点也应从“请求次数”转向“运营方式和回复长度”。

Jinju Hong hongjj@d-today.co.kr