吉祥访(中国)手机网 AI写代码到底有多烧钱？

发布日期：2026-05-09 05:41 来源：未知作者：admin 浏览次数：

作家｜硅谷 Tech news

裁剪｜赵虹宇

设想一下这个场景：

你让 AI Agent 帮你修一个代码 Bug。它大开神态，读了 20 个文献，改了改，跑了一下测试，没过，又改，又跑，照旧没过……来去折腾了十几轮，终于——照旧没修好。

你关掉电脑，松了语气。然后收到了 API 账单。

上头的数字可能让你倒吸一口寒气——AI Agent 自主修 Bug 在国外官方 API 下，单次未开采任务常烧掉百万以上 Token，用度可达几十至一百多好意思元。

2026 年 4 月，一篇由斯坦福、MIT、密歇根大学等统一髻布的参谋论文，第一次系统性地大开了 AI Agent 在代码任务中的"消费黑箱"——钱到底花在哪了、花得值不值、能弗成提前预估，谜底令东说念主惧怕。

发现一：Agent 写代码的烧钱速率，是凡俗 AI 对话的 1000 倍

群众可能以为，让 AI 帮你写代码和让 AI 跟你聊代码，花的钱应该差未几吧？

论文给出对比暴露：

Agentic 编码任务的 Token 消耗量，是凡俗代码问答和代码推理任务的约 1000 倍。

差了整整三个数目级。

为什么会这么？论文指出了一个事实——钱不是花在"写代码"上，而是花在"读代码"上。

这里的"读"不是指东说念主类读代码，而是 Agent 在职责经过中，需要束缚地把通盘神态的高下文、历史操作记载、报错信息、文献内容一股脑儿"喂"给模子。每多一轮对话，这个高下文就变得更长一轮；而模子是按 Token 数目计费的——你喂得越多，付得越多。

打个譬如：这就像请了一个修理工，他每动一下扳手之前，都要你把整栋楼的图纸重新念一遍给他听——念图纸的钱，远比拧螺丝的钱贵得多。

论文把这个征象回归为一句话：驱动 Agent 本钱的，是输入 Token 的指数级增长，而非输出 Token。

发现二：合并个 Bug，跑两次，猝然能差一倍——何况越贵的 Bug 越不褂讪

更让东说念主头疼的是就地性。

参谋者让合并个 Agent 在合并个任务上跑了 4 次，搁置发现：

在不同任务之间，最贵的任务比最低廉的任务多烧约 700 万个 Token（Figure 2a）

在合并模子、合并任务的屡次运行中，最贵的一次约莫是最低廉的一次的 2 倍（Figure 2b）

而如若跨模子对比合并个任务，最高消耗和最低消耗之间不错收支高达 30 倍

终末一个数字尤其值得关怀：这意味着，选对模子和选错模子之间的本钱差距，斗鱼体育DOUYU中国官网不是"贵极少"，而是"贵出一个数目级"。

更扎心的是——花得多，不代表作念得好。

论文发现了一个"倒 U 型"弧线：

本钱水平准确率趋势低本钱准确率较低（可能参预不够）中等本钱准确率相通最高高本钱准确率不升反降，进入 " 满盈区间 "。

为什么会这么？论文通过分析 Agent 的具体操作给出了谜底——

高本钱的运行中，Agent 多半期间花在了"叠加服务"上。

参谋发现，在高本钱运行中，约 50% 的文献查抄和文献修改操作是叠加的——也即是说，Agent 在反复读合并个文献、反复改合并溜代码，像一个东说念主在房间里转圈，越转越晕，越晕越转。

钱没花在解决问题上，花在了"迷途"上。

发现三：模子之间"能效比"截然不同—— GPT-5 最省，有的模子多烧 150 万 Token

论文在业界表率的 SWE-bench Verified（500 个真实 GitHub Issue）上，测试了 8 个前沿大模子的 Agent 施展。换算成好意思元，吉祥访(中国)手机网Token 效果高的模子每个任务不错多花几十块的区别。放到企业级运用——一天跑几百个任务——差距即是真金白银。

更有风趣风趣的一个发现是：Token 效果是模子的"固有秉性"，而非任务使然。

参谋者把所有这个词模子都到手解决的任务（230 个）和所有这个词模子都失败的任务（100 个）分辩拿出来相比，发现模子的相对名次简直莫得变化。

这说明：有些模子天生就"话多"，跟任务难度关系不大。

还有一个令东说念主深念念的发现：模子穷乏"止损坚忍"。

在面临所有这个词模子都无法解决的迂曲任务时，渴望的 Agent 应该尽早铲除，而不是持续烧钱。但现实是，模子渊博在失败任务上消耗了更多的 Token——它们不会"认输"，只会持续探索、重试、重读高下文，像一台莫得油表警示灯的汽车，沿途开到抛锚。

发现四：东说念主类以为难的，Agent 不一定以为贵——难度感知皆备错位

你可能会想：那至少我不错把柄任务的难易进度来预估本钱吧？

论文找来东说念主类大师，对 500 个任务的难度进行评分，然后和 Agent 的试验 Token 消耗作念对比——

搁置：两者之间只好弱关系。

用大口语说：东说念主类以为贵症结死的任务，Agent 可能拖拉措置不怎么用钱；东说念主类以为小菜一碟的任务，Agent 可能烧到怀疑东说念主生。

这是因为东说念主和 AI "看到"的难度根蒂不是一趟事：

东说念主类看的是：逻辑复杂度、算法难度、业务剖判门槛Agent 看的是：神态有多大、要读些许文献、探索旅途有多长、会不会反复修改合并个文献

一个东说念主类大师以为"改一溜就行"的 Bug，Agent 可能要先读懂通盘代码库的结构智力定位到那一溜——光是"读"就要烧掉多半 Token。而一个东说念主类以为"逻辑很绕"的算法问题，Agent 可能正好知说念表率解法，三下五除二就措置了。

这就导致了一个疾苦的现实：开发者简直不可能凭直观预估 Agent 的运行本钱。

发现五：连模子我方都算不准我方要花些许钱

既然东说念主算不准，那让 AI 我方来瞻望呢？

参谋者遐想了一个小巧的实验：让 Agent 在真实运转修 Bug 之前，先" inspect "一下代码库，然后预估我方需要消耗些许 Token ——但装假际履行开采。

搁置如何？

所有这个词模子，扫地俱尽。

最佳的得益是 Claude Sonnet-4.5 对输出 Token 的瞻望关系性——0.39（满分 1.0）。多数模子的瞻望关系性只好 0.05 到 0.34 之间，Gemini-3-Pro 最低，仅为 0.04——基本等于瞎猜。

更离谱的是：所有这个词模子都系统性低估了我方的 Token 消耗。 Figure 11 的散点图中，简直所罕有据点都落在"完好瞻望线"的下方——模子以为我方"花不了那么多"，试验上花了更多。何况这个低估偏差在不提供示例的情况下愈加严重。

更挖苦的是——瞻望自己也要用钱。

Claude Sonnet-3.7 和 Sonnet-4 的瞻望本钱以至高达任务自己本钱的 2 倍以上。也即是说，让它们先"估个价"，比径直干活还贵。

论文的论断大开窗户说亮话：

现阶段，前沿模子无法准确瞻望自身的 Token 用量。点下"运行 Agent "，就像开盲盒——账单出来才知说念花了些许。

这笔"狡赖账"背后

藏着一个更大的行业问题

1. "按月订阅"的订价方法，正在被 Agent 撕开罅隙

论文指出，像 ChatGPT Plus 这么的订阅制之是以可行，是因为凡俗对话的 Token 消耗相对可控、可瞻望。但 Agent 任务皆备突破了这一假定——一个的任务可能因为 Agent 堕入轮回而烧掉巨量 Token。

这意味着，地说念的订阅制订价对 Agent 场景可能不可执续，按量计费（Pay-as-you-go）在很是万古期内还是最现实的选项。但按量计费的问题在于——用量自己就不可瞻望。

2. Token 效果应该成为选模子的"第三主义"

传统上，企业选模子看两个维度：智力（能不颖悟）和速率（干得快不快）。这篇论文给出了第三个同等垂危的维度：能效（花些许智力干成）。

一个智力略逊但效果高 3 倍的模子，在规模化场景下可能比"最强但最费"的模子更有经济价值。

3. Agent 需要"油表"和"刹车"

论文提到一个值得关怀的改日标的——Budget-aware tool-use policies（预算感知的器具使用政策）。浅易说即是给 Agent 装一个 " 油表 "：当 Token 消耗接近预算时，强制它罢手无效探索，而不是沿途烧到底。

当今，简直所有这个词主流 Agent 框架都穷乏这种机制。

Agent 的"烧钱问题"

不是 Bug，而是行业必经的阵痛

这篇论文揭示的并非某个模子的短处，而是通盘 Agent 范式的结构性挑战——当 AI 从"一问一答"进化到"自主策动、多秩序行、反复调试"，Token 消耗的不可瞻望性简直是一种势必。

好音讯是，这是第一次有东说念主系统性地把这笔狡赖账翻出来算。有了这份数据，开发者不错更理智地礼聘模子、诞生预算、遐想止损机制；模子厂商也有了一个新的优化标的——不仅仅作念得更强，还要作念得更省。

毕竟，在 AI Agent 真实走入千行百业的坐褥环境之前，每一分钱花得清皑皑白，比每一溜代码写得漂漂亮亮，更垂危。

注：本文基于 2026 年 4 月 24 日发表于 arXiv 的预印本论文 *How Do AI Agents Spend Your Money? Analyzing and Predicting Token Consumption in Agentic Coding Tasks*（Bai， Huang， Wang， Sun， Mihalcea， Brynjolfsson， Pentland， Pei）撰写。作家来自弗吉尼亚大学、斯坦福大学、MIT、密歇根大学等机构。该参谋尚未经同业评审。

（本文首发于钛媒体 APP）吉祥访(中国)手机网

沙巴体育中国官网入口

上一篇：上一篇：吉祥访中国体育手机官网民众首发！宇树UniStore东谈主形机器东谈主诓骗平台郑重盛开

下一篇：下一篇：吉祥访(中国)手机网为收购亿贝筹560亿好意思元游戏驿站CEO盯上卖袜子买卖

吉祥访体育app

吉祥访(中国)手机网 AI写代码到底有多烧钱？