微调还是 RAG？AI 应用开发者的永恒难题

搭建 AI 应用时，总有一个问题绕不开：到底该用微调（Fine-tuning），还是 RAG（检索增强生成）？

这不是非黑即白的选择，而是场景决定策略。

微调是改「大脑结构」：让模型学会新的说话方式、特定领域的知识表达。

RAG 是开「外挂记忆」：让模型在回答时参考外部资料库，但不改变模型本身。

前特斯拉 AI 总监 Andrej Karpathy 有个更精准的比喻：微调是「让模型记住肌肉记忆」，RAG 是「给模型开卷考试的课本」。

需要特定风格或格式：
- 医疗诊断报告的写法
- 法律文书的规范格式
- 品牌客服的语气语调

有稳定的私有数据：
- 企业内部的专有术语
- 特定行业的知识库
- 需要模型「内化」的规则

沃顿商学院教授 Ethan Mollick 的团队做过实验：微调后的模型在专业领域表现比通用模型提升 30%-50%，但前提是你的数据质量足够高。

知识需要实时更新：
- 新闻资讯、政策法规
- 产品文档、技术手册
- 动态变化的知识库

数据量太大：
- 企业知识库有上万份文档
- 需要检索特定片段而非全局
- 微调成本远超 RAG

需要可追溯性：
- 医生要引用具体的文献
- 律师要标注法规来源
- 技术文档要附参考链接

最佳实践是「RAG 优先，微调补位」：

第一步：先搭建 RAG 系统，用最低成本验证产品 idea

第二步：收集用户反馈数据，识别模型的知识盲区

第三步：针对性微调，优化特定场景的表现

第四步：持续迭代，保持 RAG 知识库更新

一家医疗 AI 公司尝试过纯微调方案，花了 50 万美元训练 GPT-3.5 变体，结果新药上市一周后，模型就开始胡说八道——因为知识固化了。

改用 RAG 后，只需更新知识库，模型自动「学会」新药信息。微调成本降了 80%，准确率反而提升了。

微调的坑：
- 数据质量决定效果，垃圾进垃圾出
- 模型会「过拟合」训练数据
- 知识更新需要重新训练

RAG 的坑：
- 检索质量是天花板
- 需要好的向量数据库和 chunk 策略
- 上下文窗口限制检索量

问自己三个问题：

AI 应用开发没有银弹，只有场景匹配的策略。

—— https://www.80aj.com