Coinbase公开AI降本方法：调整默认模型、优化路由、提升缓存复用

左起：Coinbase CEO Brian Armstrong、Microsoft的Nicholas Bustamante。图片来源：Gemini

企业对AI的投入和使用持续升温，随之而来的成本压力也在加大。如何在扩大AI应用规模的同时控制支出，正成为越来越多公司关注的重点。

近期，已有企业开始对外公开相关实践。美国最大加密货币交易所Coinbase表示，在Token消耗持续增长的情况下，公司已将AI成本压降近一半。Coinbase CEO Brian Armstrong在社交平台X（原推特）发文称，关键并不在于限制使用量，而在于更合理地设置默认模型、优化请求路由，并尽可能复用缓存。

在默认模型策略上，Coinbase并未通过压低使用上限来控费，而是在LLM网关层面尝试将GLM 5.2、Kimi 2.7等开放权重模型设为默认选项。

Coinbase解释称，91%的员工从未触及使用上限，因此单纯下调额度并不能有效降低成本。即便调整了默认模型，工程师仍可根据实际需要自由切换其他模型。

除默认模型外，路由优化也是其降本的重要一环。

Armstrong介绍称，Coinbase已建立一套自动分配机制，先对提示词进行分析，再结合缓存情况和模型价格，将请求分发至最合适的模型。他表示，复杂的规划类任务仍需依赖高性能模型，而执行类的简单任务则可交由低成本模型处理。公司的目标，是把“如何选模型”这件事也交给AI自动完成。

在缓存方面，Coinbase正推动所有请求优先具备缓存识别与复用能力，尽可能利用已有结果。缓存机制会保存此前处理过的提示词及对应答案，当出现相同或相似请求时，无需再次计算即可直接返回结果。

Coinbase称，在开源聊天式AI界面LibreChat中落地缓存机制后，已有60%的请求可以直接命中缓存答案，而此前这一比例仅为5%。

在控制上下文规模方面，Coinbase的做法包括：在切换任务时开启新会话、缩小文件上下文范围，以及关闭不再使用的工具连接。

Armstrong强调，公司关注的并不是Token总量本身，而是尽量减少被浪费的Token。其核心目标也不是压制使用，而是建设一套能够支撑指数级增长的可持续基础设施。

Microsoft的Nicholas Bustamante也认同Armstrong的判断，并将“后台Agent”视为下一阶段AI成本优化的重要方向。

他认为，当前正处于“Token工程时代”的起点。第一阶段是“尽可能多地使用AI”，下一阶段则是“在合适的时间，调用合适的模型、合适的缓存，消耗合适数量的Token”。

在他看来，接下来值得重点关注的优化手段之一，就是后台Agent。代码审查、评估、重构、数据抽取、文档更新、安全扫描、收件箱整理、CRM补全、测试生成、迁移规划等任务，并不一定都需要即时完成，延后30分钟、2小时，甚至1天再处理，在很多场景下同样可行。

他预计，固定的Token定价体系未来可能发生变化。由于GPU产能在不同时段存在峰值和闲置的切换，工作时段的交互式请求通常更集中，而后台任务则可以在算力更充裕的时段以更低成本运行。因此，Token定价机制可能从固定价格转向“可延迟Token定价”：需要立即执行的任务按实时价格计费；可等待1小时的任务价格更低；可等待24小时的任务则可能更便宜。

他表示，未来AI技术栈将朝着综合优化的方向演进，即在模型质量、缓存利用、可接受时延、GPU产能与业务价值之间取得更优平衡。届时，Agent不仅要决定使用哪种模型，也将决定任务应在何时执行。

Chi-gyu Hwang delight@d-today.co.kr

关键词