随着企业收紧 AI 支出,开发团队对 AI 编程工具的使用,也开始从“拼用量”转向“看产出”。最新分析显示,开发者消耗更多 Token,并不意味着生产力会同比提升,企业如今更看重 AI 投入能否带来相应回报。
据 Business Insider 当地时间7日报道,工程智能公司 Jellyfish 发布了一份基于 Anthropic 编程工具 Claude Code 用户数据的分析。结果显示,Token 使用量位居前10%的开发者,其消耗规模约为中等水平开发者的10倍,但实际产出仅高出约2倍。
Token 是大模型处理文本和指令的基本计量单位,也是多数 AI 服务的计费依据。随着使用量上升,企业承担的 AI 成本也会同步增加。
Jellyfish 认为,这一结果反映出一味拉高 Token 使用量的局限性:AI 使用强度的增加,并不会线性转化为生产力提升。Jellyfish AI 与研究负责人 Nicolas Arcolano 表示,企业如今不仅要求提高开发速度,也越来越重视成本控制,首席财务官(CFO)也开始直接关注 AI 成本问题。
在样本中,AI 使用水平靠前的开发者,每周使用 Claude Code 的规模最高达到每人2.25亿 Token;中等水平开发者的平均用量约为3200万 Token。尽管两者之间存在明显差距,但产出提升幅度相对有限,这也是此次分析的核心结论。
不过,这并不意味着 AI 编程工具本身缺乏价值。Jellyfish 以软件研发中常见的 Pull Request 相关指标进行比较后发现,AI 使用度较高团队的 Pull Request 数量,比使用度较低团队高出约77%。
Jellyfish 指出,问题的关键不在于“用不用 AI”,而在于如何找到效率与成本更优的使用方式。相比无限制增加 Token 消耗,企业更需要明确在哪一使用水平上,成本与生产力之间能够实现更好的平衡。
Arcolano 还表示,仅以 Token 用量衡量开发者生产力并不准确。不同模型之间的差异,以及配置变化,都会显著影响 Token 消耗,因此这一指标未必能真实反映工作成果。
他强调,企业应更多关注结果导向型指标,例如“每个 Pull Request 的成本”,而不是单纯盯住 Token 总消耗。一旦 Token 成本快速攀升,CFO 势必会对 AI 支出产生担忧,相关费用也可能进一步转化为经营负担。
目前,行业内还出现了同时运行多个 AI 代理、以不同方式解决同一问题的做法。例如一次启动5个 AI 代理分别生成代码,再由开发者从中选择最优结果。
不过,这种方式在可能提升效率的同时,也会进一步推高成本。Arcolano 表示,虽然这么做或许仍比直接增加人力更便宜,但也会带来大量最终未被采用的计算开销。
Jellyfish 判断,科技行业衡量 AI 使用效果的标准,正从“用得多”转向“用得好”。在 AI 应用早期,使用量往往被视为创新能力的象征;但进入当前阶段后,企业更需要证明其对生产力和成本效率的实际贡献。
在这一背景下,企业开始意识到,与其放任少数开发者过度消耗,不如让更多工程师稳定维持在中等使用水平。业界也认为,未来 AI 编程工具的竞争重点,可能不再只是模型性能本身,而是谁能更好地优化成本与生产力之间的关系。