Karpathy神经网络03：MLP - 多层感知机

本文是《Karpathy神经网络零基础课程》系列文章

← 上一篇：Karpathy神经网络02：Makemore - 语言模型入门 | → 下一篇：Karpathy神经网络04：BatchNorm - 解决训练崩盘

欢迎回来！如果在上一集我们造的是一辆“乐高迷你车”（Bigram 模型），那么今天 Andrej Karpathy 大神要带我们升级装备，造一辆真正的“电动轿车”！

这堂课的主题是：多层感知机 (MLP)。虽然名字听起来很吓人，但它的原理其实超级有趣。我们将参考 2003 年的一篇经典论文，用现代的方法重现它。

以下是为你准备的“初中生进阶版”AI 笔记：

在上一集里，我们的 AI 只有“金鱼记忆”，只看前 1 个字母来猜下一个。

这是本集最酷的概念！想象一下，我们把每个字母（a, b, c...）都变成一个坐标。

什么是 Embedding？
以前 'a' 就是一个单纯的代号。现在，我们给 'a' 一个身份信息，比如 [0.1, -0.5]。这就好像把字母放在了一个地图上。
神奇的效果：
经过训练后，AI 会自动把相似的字母放在一起。
比如元音 a, e, i, o, u 在地图上可能会聚成一个小圈子。
因为它们在单词里出现的用法很像（比如都可以放在辅音中间）。
这就是 AI 产生的“语感”！它不再只认符号，而是开始理解字母之间的关系。

Andrej 带我们用代码搭积木，这次的积木分三层：

输入层 (Input)：
比如我们要看前 3 个字母来猜第 4 个。我们把这 3 个字母的“坐标” (Embeddings) 拿出来，拼在一起。
隐藏层 (Hidden Layer) —— 大脑的处理中心：
这些拼起来的数据，会通过一个“全连接层” (Linear Layer) 和一个激活函数 (tanh)。
这就好比把信息揉碎了、混合在一起进行深加工。
输出层 (Output)：
最后算出一个概率：下一个字母是谁？

这部分是教科书上学不到的实战经验，非常宝贵：

view()： 这是一个超高频使用的命令。它能瞬间把数据的形状改变（比如把“3 行 2 列”变成“1 行 6 列”），而且完全不消耗内存。学会用它，你就是 PyTorch 魔法师。

看完这个视频，我们的 AI 已经进化了：

给初中生的启示：
这个视频告诉我们，解决困难问题（比如数据太多存不下）的方法，往往是换一个角度看问题（把离散的符号变成连续的空间向量）。这就是数学和编程结合的美妙之处！

返回系列总览