企业对AI的投入和使用持续升温,随之而来的成本压力也在加大。如何在扩大AI应用规模的同时控制支出,正成为越来越多公司关注的重点。
近期,已有企业开始对外公开相关实践。美国最大加密货币交易所Coinbase表示,在Token消耗持续增长的情况下,公司已将AI成本压降近一半。Coinbase CEO Brian Armstrong在社交平台X(原推特)发文称,关键并不在于限制使用量,而在于更合理地设置默认模型、优化请求路由,并尽可能复用缓存。
在默认模型策略上,Coinbase并未通过压低使用上限来控费,而是在LLM网关层面尝试将GLM 5.2、Kimi 2.7等开放权重模型设为默认选项。
Coinbase解释称,91%的员工从未触及使用上限,因此单纯下调额度并不能有效降低成本。即便调整了默认模型,工程师仍可根据实际需要自由切换其他模型。
除默认模型外,路由优化也是其降本的重要一环。
Armstrong介绍称,Coinbase已建立一套自动分配机制,先对提示词进行分析,再结合缓存情况和模型价格,将请求分发至最合适的模型。他表示,复杂的规划类任务仍需依赖高性能模型,而执行类的简单任务则可交由低成本模型处理。公司的目标,是把“如何选模型”这件事也交给AI自动完成。
在缓存方面,Coinbase正推动所有请求优先具备缓存识别与复用能力,尽可能利用已有结果。缓存机制会保存此前处理过的提示词及对应答案,当出现相同或相似请求时,无需再次计算即可直接返回结果。
Coinbase称,在开源聊天式AI界面LibreChat中落地缓存机制后,已有60%的请求可以直接命中缓存答案,而此前这一比例仅为5%。
在控制上下文规模方面,Coinbase的做法包括:在切换任务时开启新会话、缩小文件上下文范围,以及关闭不再使用的工具连接。
Armstrong强调,公司关注的并不是Token总量本身,而是尽量减少被浪费的Token。其核心目标也不是压制使用,而是建设一套能够支撑指数级增长的可持续基础设施。
Microsoft的Nicholas Bustamante也认同Armstrong的判断,并将“后台Agent”视为下一阶段AI成本优化的重要方向。
他认为,当前正处于“Token工程时代”的起点。第一阶段是“尽可能多地使用AI”,下一阶段则是“在合适的时间,调用合适的模型、合适的缓存,消耗合适数量的Token”。
在他看来,接下来值得重点关注的优化手段之一,就是后台Agent。代码审查、评估、重构、数据抽取、文档更新、安全扫描、收件箱整理、CRM补全、测试生成、迁移规划等任务,并不一定都需要即时完成,延后30分钟、2小时,甚至1天再处理,在很多场景下同样可行。
他预计,固定的Token定价体系未来可能发生变化。由于GPU产能在不同时段存在峰值和闲置的切换,工作时段的交互式请求通常更集中,而后台任务则可以在算力更充裕的时段以更低成本运行。因此,Token定价机制可能从固定价格转向“可延迟Token定价”:需要立即执行的任务按实时价格计费;可等待1小时的任务价格更低;可等待24小时的任务则可能更便宜。
他表示,未来AI技术栈将朝着综合优化的方向演进,即在模型质量、缓存利用、可接受时延、GPU产能与业务价值之间取得更优平衡。届时,Agent不仅要决定使用哪种模型,也将决定任务应在何时执行。