OpenAI旗下聊天机器人ChatGPT。图片来源:Shutterstock

据外媒报道,OpenAI工程师已在内部分享一套可显著降低人工智能(AI)推理成本的优化方案,相关方案目前已用于ChatGPT访客模式的部分流程。

Gigazine、The Information 7月1日(当地时间)报道称,这一方案于6月初在OpenAI内部被提及,目标是将AI推理成本压缩至原来一半以下。报道还称,在ChatGPT访客模式中引入该方案后,相关英伟达GPU占用已降至约200张。

所谓推理成本,是指AI模型根据用户输入生成回复过程中产生的运营开支。对于聊天机器人、编程辅助及API调用等服务而言,这部分成本会随着使用次数持续发生,因此也被视为影响大模型服务商盈利能力的重要指标。

市场之所以高度关注这一消息,原因在于推理成本与训练成本的性质并不相同。前沿模型训练通常表现为一次性的大额投入,而推理成本则会在对话回复、API请求和智能体任务执行等场景中持续累积。若仅通过软件层面的优化,就能明显降低免费服务场景下的GPU占用,其降本效果可能超过单纯调整硬件采购条件。

事实上,OpenAI的成本压力此前已多次成为市场焦点。行业分析师Edward Zitron曾估算,OpenAI仅在2025年上半年用于推理的支出就可能超过50亿美元,且这一规模被指明显高于同期预期营收。

不过,OpenAI此次究竟采用了哪些具体技术手段,外界仍不得而知。市场普遍猜测,成本下降可能与服务器利用率提升有关,潜在方向包括更高效的批处理、缓存复用、模型量化,以及将简单请求分流至成本更低的模型等。但这些都只是基于外部观察的推测,尚未得到证实。

从目前披露的信息看,该方案的适用范围仍然有限。已知仅落地于ChatGPT访客模式的部分流程,是否已覆盖免费账户或付费账户,暂时还不明确。未来能否进一步扩展至全量服务,尤其是API业务,仍是后续观察重点。

如果应用范围继续扩大,OpenAI在成本端的腾挪空间也将随之增加。业内认为,这意味着OpenAI未来或可选择下调价格,或在不额外增加芯片采购的情况下承接更多智能体任务。尤其是在数据中心扩张与AI芯片竞争持续升温的背景下,提升现有服务器效率对维持利润率的意义进一步凸显。

整体来看,这一进展释放出的关键信号是:OpenAI正在探索在不大幅增加硬件投入的前提下,压缩服务运营成本的现实路径。若后续有更多关于具体技术方案和适用范围的信息得到确认,ChatGPT的定价策略、免费使用规模以及AI基础设施投资方向,都可能随之发生调整。

关键词

#OpenAI #ChatGPT #推理成本 #推理降本 #英伟达GPU #服务器利用率 #API #模型量化 #缓存复用
版权所有 © DigitalToday。未经授权禁止转载或传播。