一个创业团队找我求助:他们的 AI 客服每月要花 3 万美元在 API 调用上。
看完他们的代码,我只改了 5 行配置,成本降到了 3000 美元。
性能完全没变。
问题不在模型,在他们对「成本控制」的理解太浅。
技巧一:能缓存就缓存
现状:用户问「怎么重置密码」,Agent 每次都调用模型。
成本:这个问题每天被问 1000 次,每次 0.01 美元,一个月 300 美元。
解决方法:用缓存。
- 第一次调用模型,把结果存起来
- 相同问题直接返回缓存
- 设置 24 小时过期时间
数据:90% 的客服问题都是重复的。
缓存后,这 90% 的请求成本降为 0。
Redis 的做法:他们给 GPT 的回答加了缓存,成本降低了 80%。
技巧二:用小模型做大模型的事
误区:所有场景都用 GPT-4。
真相:60% 的场景,GPT-3.5 够用了。
分类测试:
场景
GPT-4
GPT-3.5
相差
简单问答
95%
92%
3%
文本分类
93%
90%
3%
信息抽取
89%
85%
4%
代码生成
82%
65%
17%
结论:
- 简单任务用 GPT-3.5
- 复杂推理才用 GPT-4
- 成本差 10 倍
Anthropic 的 CEO Dario Amodei 说过:「大多数团队过度使用了大模型。」
技巧三:批量处理能省很多
现状:用户上传 100 个文件,Agent 调用 100 次 API。
成本:每次 0.01 美元,总共 1 美元。
解决方法:批量调用。
- 把 100 个文件打包成一个请求
- 一次调用处理所有文件
- 成本降到 0.1 美元
数据:OpenAI 的批量 API 比单个调用便宜 50%。
适用场景:
- 批量文本分析
- 批量数据标注
- 批量内容生成
技巧四:Token 省着用
现状:把整份文档都塞给模型,但其实只需要一段。
技巧:
- 用关键词搜索定位相关段落
- 只把相关段落发给模型
- 节省 80% 的 Token
真实案例:
一个法律 AI,以前把整个合同都发给模型(10 万 Token)。
改进后,先搜索相关条款,只发 5000 Token。
成本降了 95%,准确率只降了 2%。
技巧五:善用「函数调用」
现状:让模型「想」答案,每次 2000 Token。
解决方法:用「函数调用」(Function Calling)。
- 不是让模型生成文本
- 而是让模型「选择」要调用哪个函数
- 模型只需要输出函数名和参数
成本对比:
- 文本生成:2000 Token = 0.03 美元
- 函数调用:200 Token = 0.003 美元
- 成本差 10 倍
适用场景:
- 数据库查询
- API 调用
- 工具选择
一个真实的案例
某电商公司的 AI 客服:
优化前:
- 月成本:3 万美元
- 响应时间:2.5 秒
- 用户满意度:85%
优化后(5 个技巧全部应用):
- 月成本:2800 美元(降 91%)
- 响应时间:0.8 秒(快 68%)
- 用户满意度:86%(基本不变)
他们做了什么:
- 加缓存:节省 70% 重复请求
- 小模型处理简单问题:节省 60% 成本
- 批量处理文件上传:节省 50% 成本
- 只发送相关段落:节省 80% Token
- 用函数调用代替文本生成:节省 90% 成本
成本优化的三个原则
原则一:先测量,再优化
- 用 APM 工具监控每次 API 调用
- 找出成本最高的 10% 请求
- 集中优化这 10%
原则二:不要过度优化
- 如果某项功能只占总成本的 1%
- 花一周时间去优化它,不值得
- 优化高成本、高频调用的部分
原则三:定期审查
- 模型在更新,成本在变化
- 每季度审查一次成本结构
- 新的优化技巧会不断出现
最后的建议
AI Agent 的成本不是固定的,它像软件代码一样,可以优化。
如果你想降低成本,问自己三个问题:
- 哪些请求可以缓存?
- 哪些场景可以用小模型?
- 哪些 Token 其实没必要发?
如果任何一个问题你有答案,那就去优化它。
省下来的成本,可以用来提升用户体验,或者直接变成利润。
—— https://www.80aj.com