Karpathy神经网络06：WaveNet - 神经网络大升级

本文是《Karpathy神经网络零基础课程》系列文章

← 上一篇：Karpathy神经网络05：反向传播 - 徒手写梯度 | → 下一篇：Karpathy神经网络07：GPT - 从零实现ChatGPT

这是Andrej Karpathy关于从零构建深度学习模型系列的第五课。在这节课中，我们将基于DeepMind的经典论文WaveNet，对我们的语言模型进行一次重要的“架构升级”。

为了让你轻松读懂，我把这次复杂的编程实战比作一场“搭积木”和“组织比赛”的过程。

你好！欢迎回到《Building makemore》第五期。之前我们已经造出了一个能通过看前3个字母来猜第4个字母的AI（用来生成名字），它表现不错，但我们想要更强的版本。

今天我们的目标是：让AI能“看得更远”，比如一次看8个字母的上下文，并且用一种更聪明的方式来处理这些信息。这就要用到著名的WaveNet架构了。

1. 为什么我们要升级？（遇到的瓶颈）

旧模型的问题：
这就好比你想预测一句话的下一个词。

以前（MLP模型）：AI只盯着最近的3个字。比如看到“吃葡...”，它猜“萄”。这很简单。
现在：我们想让它看8个字。但如果我们直接把8个字的信息全部塞进一层神经网络里强行压缩，就像试图把一大堆水果直接扔进榨汁机，虽然能出汁，但很多细腻的风味（位置信息、局部搭配）都在暴力的压缩中丢失了。

新思路（WaveNet）：
我们需要一种“层层递进”的方法。不要一口气处理所有字，而是两两分组，慢慢融合信息。这就像是一场淘汰赛：

这种结构叫做分层融合（Hierarchical Fusion），或者树状结构。

为了实现这个新想法，Andrej 带我们在代码里做了几个关键的手术：

首先，我们要把数据集的配置改一下。以前 block_size = 3，现在改成 block_size = 8。

这是本节课的核心创新。

有了新零件，我们就可以像搭积木一样通过堆叠层来构建网络了：

这种结构看起来就像一棵倒过来的树，让信息缓慢地、有层次地在这个“管道”里流动。

在改造过程中，我们遇到了一个很难缠的 Bug，这也是编程中最真实的一面。

症状：代码能跑，不报错，但训练效果就是没那么好，或者有些奇怪。
病因：BatchNorm（批量归一化层）在处理多维数据时搞错了方向。
我们的数据现在是三维的（Batch, Time, Channels），但原本写的 BatchNorm 只习惯处理二维数据。它在计算均值和方差时，仅仅在一个维度上取了平均，导致它误以为每个时间步（Time step）是独立的，维护了错误的统计数据。
修复：我们修改了 BatchNorm1D 的代码，告诉它：“嘿，不管输入形状是怎样的，请把除了通道（Channel）以外的所有维度都当作样本一起算平均值！”
结果：修复后，验证集 Loss 稍微下降了一点点（从2.029降到2.022），证明我们的统计更稳定了。

经过这一番折腾（甚至把网络加宽、加深），我们的成绩单如下：

虽然数字看起来只降了一点点，但对于这种字符级预测任务，突破2.0的大关是很不容易的！生成的那些“AI名字”也变得更像真实的人名了。

分层处理胜过暴力压缩：处理长序列数据（如文本、音频）时，不要试图一步到位。使用像 WaveNet 这样的分层结构，每次只融合局部信息，效果更好。
形状体操（Shape Gymnastics）：在写深度学习代码时，最重要的事情就是盯着数据的形状（Shape）。比如 [4, 8, 10] 变成了 [4, 4, 20]，一定要清楚每一步数据变成了什么样，否则很容易出错。
模块化编程：我们把代码封装成了类似 PyTorch 官方库那样的模块（nn.Module）。这让代码变得整洁、可复用，就像把散乱的零件整理进了工具箱。
调试的心态：即使是大神（Andrej）也会写出 Bug（比如那个 BatchNorm 的问题）。关键在于多打印数据的形状，多检查中间结果，保持耐心。

下一步预告：虽然我们手动实现了分层结构，但这其实可以用更高效的卷积神经网络（CNN）来实现。未来我们还会学习残差连接（Residual Connections）等更高级的技巧，让模型变得更深、更强！