KAIST：AI智能体单次问答耗电可达传统生成式问答136.5倍

KAIST于5日表示，电气与电子工程系Yu Minsoo研究团队首次在真实服务环境下，对AI智能体占用的计算资源和电力消耗进行了系统分析。

研究团队将AI智能体视为一种新型数据中心工作负载，而非单纯的软件程序。也就是说，这类任务在运行过程中需要持续占用数据中心服务器和图形处理器（GPU）资源。基于这一定位，团队进一步分析了AI智能体在实际运行中的计算量与能耗特征。

研究显示，与传统链式推理（Chain-of-Thought，CoT）流程不同，AI智能体在执行任务时会反复调用大语言模型（LLM）。为了完成新的判断或生成最终答案，模型往往需要多次运行，进而推高整体计算量和响应时延。

从结果来看，AI智能体的响应时间最高可达传统方式的153.7倍。研究还指出，在执行联网搜索、代码运行等外部工具期间，GPU在总执行时长中最长有54.5%处于等待或空转状态。这意味着，任务越复杂，昂贵的GPU资源越可能面临新的利用率下降问题。

研究团队还从数据中心部署视角测算了AI智能体的用电水平。以基于700亿参数大语言模型、也是当前商用AI服务常见配置的AI智能体为例，其单次处理用户提问的平均耗电量为348.41Wh，约为传统生成式AI简单问答模式的136.5倍。

在进一步测算中，团队假设未来AI智能体的日请求量达到137亿次。结果显示，在这一情景下，AI数据中心的电力需求可能升至约198.9GW，显著高于目前各国推进中的数GW级AI数据中心用电规模，约相当于美国全国平均用电水平的一半。

研究团队表示，这项研究表明，AI时代的竞争力正从“更聪明的AI”扩展到“更高效的AI”。未来不仅需要提升模型性能，还应围绕AI芯片、数据中心和电力基础设施推进协同设计（Co-design），以降低AI服务运营成本，并建设可持续的AI基础设施。

Yu Minsoo表示，随着AI智能体加速普及，未来不仅要优化AI数据中心基础设施，还需要将AI智能体模型与电力基础设施纳入一体化协同设计和优化框架，从而显著降低终端用户使用AI服务的成本，并推动可持续AI基础设施所需的研究与投资。

本项研究由电气与电子工程系博士生Kim Ji-in担任第一作者。相关成果已于今年2月在计算机系统设计领域国际会议——第32届IEEE高性能计算机体系结构国际研讨会（HPCA）上发布。

此外，研究团队还开源了论文中使用的AI智能体实现技术，以及用于性能对比和评测的基准测试（benchmark），以供全球研究人员开展后续研究。

该研究获得了信息通信企划评价院（IITP）的SW StarLab项目、基于AI芯片的K-Cloud技术开发项目、AI芯片基础数据中心高端化先导技术开发项目，以及三星电子（Samsung Electronics）未来技术培育中心的支持。

Jin-ho Lee jhlee26@d-today.co.kr