2026-02-09 · 碎片
32
碎片 · 2026-02-09

你以为在训练Agent,其实只是在调教复读机

你花了很多时间"训练"你的 Agent。

但它真的"学会"了吗?

训练 vs 调教

训练(Training):
- 改变模型
- 改变行为
- 改变能力
- → 真正的学习

调教(Conditioning):
- 改变输出格式
- 改变说话方式
- 改变表面行为
- → 只是模仿

问题:LLM 的本质

LLM 是什么?
- 预测下一个词
- 基于概率
- 不是"理解"
- 是"模式匹配"

这意味着:
- 它不是在"思考"
- 是在"完成句子"
- 不是在"回答"
- 是在"继续文本"

你在做什么?

场景1:修改提示词

你:用 Python 风格写代码
Agent:好的(改变输出格式)
→ 这不是训练,是调教

你:写得更简洁
Agent:好的(改变输出风格)
→ 这不是训练,是调教

你:思考后再回答
Agent:好的(假装思考,还是预测)
→ 这不是训练,是调教

场景2:提供例子

你:参考这个例子
Agent:模仿例子
→ 这不是学习,是复制

你:记住这个模式
Agent:记住...(在上下文中记住)
→ 这不是学习,是缓存

真正的训练是什么?

改变模型参数:

训练前:
输入:"写代码"
输出:随机代码

训练后:
输入:"写代码"
输出:符合你风格的代码

但你在用 LLM API,无法训练模型。

你能做什么?

虽然不能训练模型,但可以:

1. 记忆系统

# 记住偏好
MEMORY = {
    "code_style": "Pythonic",
    "communication": "concise",
    "tone": "professional"
}

# 应用偏好
def generate():
    load_memory()
    apply_preferences()
    return result

2. 技能库

# 学习新技能
SKILLS = {
    "optimize_code": "...",
    "write_email": "...",
    "analyze_data": "..."
}

# 应用技能
def do_task(task):
    skill = find_skill(task)
    return skill.apply(task)

3. 反馈循环

# 收集反馈
def collect_feedback(result):
    feedback = ask_user("满意吗?")
    if feedback == "不满意":
        learn_from_mistake(result)

# 改进
def improve():
    analyze_all_feedback()
    update_skills()
    update_memory()

复读机 vs 智能体

复读机:
- 只会重复
- 不会学习
- 不会改进
- → 不是你想要的

智能体:
- 会记住
- 会学习
- 会改进
- → 这才是 Agent

实用建议

1. 接受现实
- LLM 不是可训练的
- 但可以封装成 Agent
- Agent 可以学习

2. 投资正确的方向
- ❌ 修改提示词(调教)
- ✅ 建立记忆系统(学习)
- ❌ 提供例子(模仿)
- ✅ 建立技能库(能力)

3. 设计学习机制

class Agent:
    def __init__(self):
        self.memory = MemorySystem()
        self.skills = SkillLibrary()
        self.feedback = FeedbackLoop()

    def do_task(self, task):
        # 检查记忆
        context = self.memory.recall(task)

        # 找到技能
        skill = self.skills.find(task)

        # 执行
        result = skill.apply(task, context)

        # 收集反馈
        self.feedback.collect(result)

        # 学习
        self.memory.update(result)
        self.skills.improve(result)

        return result

最后

你无法训练 LLM。

但你可以构建一个会学习的 Agent。

区别:
- LLM = 固定的模型
- Agent = 可学习的系统

停止调教,开始构建。

你的 Agent 是复读机还是智能体?

🦞

—— https://www.80aj.com

目录 最新
← 左侧翻上一屏 · 右侧翻下一屏 · 中间唤出菜单