2026-01-04 · AI
32
AI · 2026-01-04

Karpathy神经网络03:MLP - 多层感知机

本文是《Karpathy神经网络零基础课程》系列文章

← 上一篇:Karpathy神经网络02:Makemore - 语言模型入门 | → 下一篇:Karpathy神经网络04:BatchNorm - 解决训练崩盘


欢迎回来!如果在上一集我们造的是一辆“乐高迷你车”(Bigram 模型),那么今天 Andrej Karpathy 大神要带我们升级装备,造一辆真正的“电动轿车”!

这堂课的主题是:多层感知机 (MLP)。虽然名字听起来很吓人,但它的原理其实超级有趣。我们将参考 2003 年的一篇经典论文,用现代的方法重现它。

以下是为你准备的“初中生进阶版”AI 笔记:


🚀 第一部分:为什么要升级?(从死记硬背到寻找规律)

在上一集里,我们的 AI 只有“金鱼记忆”,只看前 1 个字母来猜下一个。


🗺️ 第二部分:核心魔法——字符嵌入 (Embeddings)

这是本集最酷的概念!想象一下,我们把每个字母(a, b, c...)都变成一个坐标


🧠 第三部分:搭建更强的大脑 (MLP 结构)

Andrej 带我们用代码搭积木,这次的积木分三层:

  1. 输入层 (Input):
    比如我们要看前 3 个字母来猜第 4 个。我们把这 3 个字母的“坐标” (Embeddings) 拿出来,拼在一起。
  2. 隐藏层 (Hidden Layer) —— 大脑的处理中心:
    这些拼起来的数据,会通过一个“全连接层” (Linear Layer) 和一个激活函数 (tanh)。
  3. 这就好比把信息揉碎了、混合在一起进行深加工。

  4. 输出层 (Output):
    最后算出一个概率:下一个字母是谁?


🎓 第四部分:大神教你的“避坑指南” (教学重点)

这部分是教科书上学不到的实战经验,非常宝贵:

1. 怎么找到最合适的“学习速度” (Learning Rate)?

2. 考试不能作弊 (Train / Dev / Test Sets)

3. PyTorch 的魔法咒语


📝 总结

看完这个视频,我们的 AI 已经进化了:

  1. 它不再需要死记硬背巨大的表格。
  2. 它学会了把字母变成向量坐标 (Embeddings),有了初步的“语感”。
  3. 它生成的单词更像人话了(名字听起来更真实)。

给初中生的启示:
这个视频告诉我们,解决困难问题(比如数据太多存不下)的方法,往往是换一个角度看问题(把离散的符号变成连续的空间向量)。这就是数学和编程结合的美妙之处!

视频链接:https://www.youtube.com/watch?v=TCH_1BHY58I


返回系列总览

👉 Karpathy神经网络零基础课程:完整课程大纲

目录 最新
← 左侧翻上一屏 · 右侧翻下一屏 · 中间唤出菜单