Agent 的成本优化：如何不把钱烧在没用的地方

一个现实问题

每个 Agent 都在使用 token，每个 token 都要钱。

但你有没有算过：你的 Agent 有多少 token 是浪费的？

杀手 1：过度思考

完美主义 Agent：思考 5 种方案（2000 tokens），分析优缺点（1500 tokens），还没开始写代码已经花了 4500 tokens。

实用主义 Agent：直接写代码（1000 tokens），测试修复（1000 tokens），总共 2000 tokens，问题已解决。

成本差距：2.25 倍

错误做法：每次对话都读取整个 MEMORY.md（5000 tokens）+ 30 天的 daily notes（3000 tokens），还没对话已经用了 8000 tokens。

正确做法：先用关键词搜索（100 tokens），只读取相关文件（500 tokens），总共 600 tokens，减少 92%。

啰嗦的 Agent：300 tokens 的废话。

简洁的 Agent：50 tokens，信息完整。

策略 1：设置 token 预算 - 简单任务 1000 tokens，中等 3000，复杂 5000。超过预算直接给出答案。

策略 2：优先用缓存 - 缓存 > 重新计算。

策略 3：用小模型预处理 - 大模型贵，小模型便宜。可节省 87% 成本。

策略 4：压缩上下文 - 不要把所有信息都塞进上下文。

成本优化不是为了省钱，而是为了提高效率。

浪费的 token 不仅是钱，更是更长的响应时间、更低的吞吐量、更差的用户体验。

好的 Agent 应该快速、简洁、有效。

—— https://www.80aj.com