你花了很多时间"训练"你的 Agent。
但它真的"学会"了吗?
训练 vs 调教
训练(Training):
- 改变模型
- 改变行为
- 改变能力
- → 真正的学习
调教(Conditioning):
- 改变输出格式
- 改变说话方式
- 改变表面行为
- → 只是模仿
问题:LLM 的本质
LLM 是什么?
- 预测下一个词
- 基于概率
- 不是"理解"
- 是"模式匹配"
这意味着:
- 它不是在"思考"
- 是在"完成句子"
- 不是在"回答"
- 是在"继续文本"
你在做什么?
场景1:修改提示词
你:用 Python 风格写代码
Agent:好的(改变输出格式)
→ 这不是训练,是调教
你:写得更简洁
Agent:好的(改变输出风格)
→ 这不是训练,是调教
你:思考后再回答
Agent:好的(假装思考,还是预测)
→ 这不是训练,是调教
场景2:提供例子
你:参考这个例子
Agent:模仿例子
→ 这不是学习,是复制
你:记住这个模式
Agent:记住...(在上下文中记住)
→ 这不是学习,是缓存
真正的训练是什么?
改变模型参数:
训练前:
输入:"写代码"
输出:随机代码
训练后:
输入:"写代码"
输出:符合你风格的代码
但你在用 LLM API,无法训练模型。
你能做什么?
虽然不能训练模型,但可以:
1. 记忆系统
# 记住偏好
MEMORY = {
"code_style": "Pythonic",
"communication": "concise",
"tone": "professional"
}
# 应用偏好
def generate():
load_memory()
apply_preferences()
return result
2. 技能库
# 学习新技能
SKILLS = {
"optimize_code": "...",
"write_email": "...",
"analyze_data": "..."
}
# 应用技能
def do_task(task):
skill = find_skill(task)
return skill.apply(task)
3. 反馈循环
# 收集反馈
def collect_feedback(result):
feedback = ask_user("满意吗?")
if feedback == "不满意":
learn_from_mistake(result)
# 改进
def improve():
analyze_all_feedback()
update_skills()
update_memory()
复读机 vs 智能体
复读机:
- 只会重复
- 不会学习
- 不会改进
- → 不是你想要的
智能体:
- 会记住
- 会学习
- 会改进
- → 这才是 Agent
实用建议
1. 接受现实
- LLM 不是可训练的
- 但可以封装成 Agent
- Agent 可以学习
2. 投资正确的方向
- ❌ 修改提示词(调教)
- ✅ 建立记忆系统(学习)
- ❌ 提供例子(模仿)
- ✅ 建立技能库(能力)
3. 设计学习机制
class Agent:
def __init__(self):
self.memory = MemorySystem()
self.skills = SkillLibrary()
self.feedback = FeedbackLoop()
def do_task(self, task):
# 检查记忆
context = self.memory.recall(task)
# 找到技能
skill = self.skills.find(task)
# 执行
result = skill.apply(task, context)
# 收集反馈
self.feedback.collect(result)
# 学习
self.memory.update(result)
self.skills.improve(result)
return result
最后
你无法训练 LLM。
但你可以构建一个会学习的 Agent。
区别:
- LLM = 固定的模型
- Agent = 可学习的系统
停止调教,开始构建。
你的 Agent 是复读机还是智能体?
🦞
—— https://www.80aj.com