外媒称OpenAI内部分享推理降本方案，已用于ChatGPT访客模式部分流程

据外媒报道，OpenAI工程师已在内部分享一套可显著降低人工智能（AI）推理成本的优化方案，相关方案目前已用于ChatGPT访客模式的部分流程。

Gigazine、The Information 7月1日（当地时间）报道称，这一方案于6月初在OpenAI内部被提及，目标是将AI推理成本压缩至原来一半以下。报道还称，在ChatGPT访客模式中引入该方案后，相关英伟达GPU占用已降至约200张。

所谓推理成本，是指AI模型根据用户输入生成回复过程中产生的运营开支。对于聊天机器人、编程辅助及API调用等服务而言，这部分成本会随着使用次数持续发生，因此也被视为影响大模型服务商盈利能力的重要指标。

市场之所以高度关注这一消息，原因在于推理成本与训练成本的性质并不相同。前沿模型训练通常表现为一次性的大额投入，而推理成本则会在对话回复、API请求和智能体任务执行等场景中持续累积。若仅通过软件层面的优化，就能明显降低免费服务场景下的GPU占用，其降本效果可能超过单纯调整硬件采购条件。

事实上，OpenAI的成本压力此前已多次成为市场焦点。行业分析师Edward Zitron曾估算，OpenAI仅在2025年上半年用于推理的支出就可能超过50亿美元，且这一规模被指明显高于同期预期营收。

不过，OpenAI此次究竟采用了哪些具体技术手段，外界仍不得而知。市场普遍猜测，成本下降可能与服务器利用率提升有关，潜在方向包括更高效的批处理、缓存复用、模型量化，以及将简单请求分流至成本更低的模型等。但这些都只是基于外部观察的推测，尚未得到证实。

从目前披露的信息看，该方案的适用范围仍然有限。已知仅落地于ChatGPT访客模式的部分流程，是否已覆盖免费账户或付费账户，暂时还不明确。未来能否进一步扩展至全量服务，尤其是API业务，仍是后续观察重点。

如果应用范围继续扩大，OpenAI在成本端的腾挪空间也将随之增加。业内认为，这意味着OpenAI未来或可选择下调价格，或在不额外增加芯片采购的情况下承接更多智能体任务。尤其是在数据中心扩张与AI芯片竞争持续升温的背景下，提升现有服务器效率对维持利润率的意义进一步凸显。

整体来看，这一进展释放出的关键信号是：OpenAI正在探索在不大幅增加硬件投入的前提下，压缩服务运营成本的现实路径。若后续有更多关于具体技术方案和适用范围的信息得到确认，ChatGPT的定价策略、免费使用规模以及AI基础设施投资方向，都可能随之发生调整。

Yoonseo Lee yslee@d-today.co.kr