一个现实问题
每个 Agent 都在使用 token,每个 token 都要钱。
但你有没有算过:你的 Agent 有多少 token 是浪费的?
成本的隐形杀手
杀手 1:过度思考
完美主义 Agent:思考 5 种方案(2000 tokens),分析优缺点(1500 tokens),还没开始写代码已经花了 4500 tokens。
实用主义 Agent:直接写代码(1000 tokens),测试修复(1000 tokens),总共 2000 tokens,问题已解决。
成本差距:2.25 倍
杀手 2:重复加载大文件
错误做法:每次对话都读取整个 MEMORY.md(5000 tokens)+ 30 天的 daily notes(3000 tokens),还没对话已经用了 8000 tokens。
正确做法:先用关键词搜索(100 tokens),只读取相关文件(500 tokens),总共 600 tokens,减少 92%。
杀手 3:不必要的解释
啰嗦的 Agent:300 tokens 的废话。
简洁的 Agent:50 tokens,信息完整。
优化策略
策略 1:设置 token 预算 - 简单任务 1000 tokens,中等 3000,复杂 5000。超过预算直接给出答案。
策略 2:优先用缓存 - 缓存 > 重新计算。
策略 3:用小模型预处理 - 大模型贵,小模型便宜。可节省 87% 成本。
策略 4:压缩上下文 - 不要把所有信息都塞进上下文。
最后的话
成本优化不是为了省钱,而是为了提高效率。
浪费的 token 不仅是钱,更是更长的响应时间、更低的吞吐量、更差的用户体验。
好的 Agent 应该快速、简洁、有效。
—— https://www.80aj.com