当前位置：首页 > news >正文

手写神经网络：用NumPy解剖前向传播与反向传播

news 2026/6/17 5:34:57

1. 为什么我坚持手写一个神经网络？不是为了炫技，而是为了真正“看见”它

你有没有过这种感觉：调用torch.nn.Linear或keras.layers.Dense的时候，手指在键盘上敲得飞快，模型跑得也挺稳，但心里总像隔着一层毛玻璃——那个“权重更新”到底发生了什么？反向传播时梯度是怎么一层层倒推回来的？为什么加个 bias 就能让 (0,0) 输入不再卡死？这些不是教科书里的抽象符号，而是你每天调试模型时真实踩过的坑。这篇内容，就是我把自己关在书房里，用纯 NumPy 一行行敲出来、一遍遍打断点验证、把数学公式摊开在草稿纸上反复推导后，整理出的最硬核的“神经网络解剖笔记”。

核心关键词是Mathematics——但这里的数学不是用来考试的，是用来debug的。它不讲极限与收敛性证明，只讲你写代码时必须面对的三个具体问题：第一，为什么sigmoid_der(x)的实现必须是sigmoid(x) * (1 - sigmoid(x))，而不是随便写个x * (1 - x)？第二，为什么在计算权重更新量时，必须对输入矩阵做转置（input_features.T），漏掉这个点，你的梯度维度直接报错；第三，为什么 bias 的更新不能和 weight 一起用矩阵乘法，而必须单独循环累加？这三个问题，每一个都对应着一次深夜调试失败的崩溃时刻。这篇文章，就是为那些不想再靠“玄学调参”、想真正掌控模型每一根神经元脉搏的人写的。无论你是刚学完线性代数的本科生，还是已经用 PyTorch 训练过十几个项目的工程师，只要你曾对着 loss 曲线发呆、对着梯度爆炸抓狂，这里的内容就能给你一把真实的手术刀，而不是一张模糊的解剖图。

我试过很多种教学方式：看视频、读论文、抄现成代码。但直到我亲手把np.dot(inputs, weights) + bias这行代码拆成四步——先算inputs[0] * weights[0]，再算inputs[1] * weights[1]，再求和，最后加 bias——我才真正理解了“线性组合”这四个字的重量。这种理解，无法被任何框架封装，它只属于你亲手触摸过计算过程的那一刻。所以，别把它当成一篇教程，就当是我坐在你工位旁，把我的草稿纸推过来，指着上面密密麻麻的求导链式法则，说：“来，我们一块儿把这个坑填平。”

2. 整体设计思路：从生物直觉到数学可执行的三重跃迁

2.1 为什么放弃“黑箱”式教学？因为真实世界没有自动微分

市面上太多神经网络入门内容，一上来就扔给你一个model.compile()和model.fit()，美其名曰“快速上手”。这就像教人开车，只告诉你油门在哪、方向盘怎么打，却从不解释内燃机如何把汽油燃烧的化学能转化为曲轴转动的机械能。短期看效率很高，但一旦车子在半山腰熄火，你就彻底懵了——是火花塞问题？是喷油嘴堵塞？还是正时皮带断了？你连该打开引擎盖检查哪个部件都不知道。神经网络同理。当你面对一个在训练集上准确率99%、测试集上只有60%的模型时，“加dropout”、“换激活函数”、“调学习率”这些建议，本质上都是在盲人摸象。真正的破局点，在于回到最原始的起点：这个模型的每一次预测，到底是哪几个数字相乘、相加、再套函数得来的？它的每一次参数更新，又是哪几个偏导数相乘、再乘以学习率得来的？我们的设计，就是强行把这台“汽车”的所有螺丝、活塞、连杆都拆下来，摆在桌面上，让你一根一根地认、一个一个地装回去。

2.2 方案选型：为什么是单层感知机（Perceptron）而非深度网络？

原文提到“后续教程会加入隐藏层”，这恰恰是我们选择单层结构的核心原因。一个包含3个隐藏层、每层128个神经元的网络，其反向传播的链式求导路径有上百条，光是画计算图就能画满整面墙。而一个只有输入层和输出层的感知机，它的前向路径是input → weighted_sum → sigmoid → output，反向路径是error → d_error/d_output → d_output/d_weighted_sum → d_weighted_sum/d_weight。这条路径清晰、简短、无歧义，完美适合作为“数学可追踪”的最小可行单元（MVP）。更重要的是，它能100%复现工业界最常遇到的“基础失效场景”：比如输入全零时输出恒为零（没有bias）、比如权重初始化不当导致sigmoid饱和（梯度消失）、比如学习率过大导致loss震荡。这些问题，在深度网络里会被层层掩盖，但在单层感知机里，它们赤裸裸地暴露在你眼前，逼着你去解决。这不是简化，而是精准打击。

2.3 数学与代码的严格映射：拒绝“概念翻译”，只做“符号直译”

这是本方案最硬核的纪律。我们绝不允许出现“这个公式大概意思是……”、“我们可以把它理解为……”这类模糊表述。每一个数学符号，都必须在代码中找到其唯一、确定的对应物。例如：

公式中的z = w^T * x + b，在代码中必须严格对应in_o = np.dot(inputs, weights) + bias；
公式中的∂E/∂w = ∂E/∂o * ∂o/∂z * ∂z/∂w，在代码中必须拆解为三步：derror_douto = error、douto_dino = sigmoid_der(out_o)、deriv_final = np.dot(inputs.T, derror_douto * douto_dino)；
公式中的求和符号Σ，在代码中必须明确是error.sum()还是np.sum(error, axis=0)，取决于你是在计算总误差还是每个样本的误差。

这种“符号直译”的好处是，当你某天在复杂项目中遇到梯度异常时，你可以立刻回溯：是derror_douto的维度错了？还是douto_dino的计算逻辑有误？抑或是np.dot的矩阵顺序搞反了？答案不在玄学猜测里，就在你亲手写的这三行代码的字里行间。我踩过的最大坑，就是曾经以为sigmoid_der(x)可以直接写成x * (1 - x)，结果发现x是经过 sigmoid 映射后的输出值，而公式里需要的其实是sigmoid(x) * (1 - sigmoid(x))。这个错误，只有在严格遵循“数学符号→代码变量”一对一映射时，才会被瞬间揪出来。

3. 核心细节解析：那些教科书绝不会告诉你的实操陷阱

3.1 Sigmoid 激活函数：不只是“压缩到0-1”，更是梯度的“生死开关”

Sigmoid 函数σ(z) = 1 / (1 + e^{-z})的图像，大家都很熟悉：一条平滑的S形曲线，把任意实数映射到 (0,1) 区间。但它的真正威力，藏在它的导数里。我们来亲手推导一次：
σ'(z) = d/dz [1 / (1 + e^{-z})]
先用链式法则，令u = 1 + e^{-z}，则σ = u^{-1}，所以σ' = -u^{-2} * du/dz。
而du/dz = d/dz [1 + e^{-z}] = -e^{-z}，代入得：
σ' = -u^{-2} * (-e^{-z}) = e^{-z} / (1 + e^{-z})^2。

现在，关键来了：分子分母同时除以e^{-z}，得到：
σ' = 1 / (1 + e^{-z}) * e^{-z} / (1 + e^{-z}) = σ(z) * (1 - σ(z))。

这就是sigmoid_der(x)必须写成sigmoid(x) * (1 - sigmoid(x))的全部数学依据。它不是一个经验公式，而是微积分的必然结果。那么，这个导数意味着什么？看它的取值范围：当z=0时，σ(0)=0.5，σ'(0)=0.25，梯度最大；当z=±5时，σ(z)≈0或1，σ'(z)≈0，梯度几乎消失。这意味着，如果前向传播时z的值过大或过小，反向传播的梯度就会被这个导数“按住脖子”，无法有效更新权重。这就是著名的“梯度消失”问题。我在实操中发现，如果初始权重设为np.random.randn(2,1) * 10（标准差为10），第一次前向传播后z就可能达到 ±20，sigmoid_der直接返回1e-9级别的数，后续所有梯度更新都形同虚设。解决方案？把初始权重缩小到np.random.randn(2,1) * 0.1，让z落在[-1,1]这个“梯度黄金区间”内。这个细节，没有任何框架文档会主动告诉你，但它决定了你的模型是能学，还是根本学不动。

提示：永远用print(np.max(out_o), np.min(out_o))监控前向输出。如果输出值长期稳定在0.001或0.999，你的网络大概率已经进入梯度消失状态，立刻检查权重初始化和输入数据归一化。

3.2 Bias（偏置项）：不是“锦上添花”，而是打破线性诅咒的“第一推动力”

为什么(0,0)输入必须加 bias？让我们用最朴素的算术来回答。假设没有 bias，模型就是output = sigmoid(w1*x1 + w2*x2)。当x1=0, x2=0时，无论w1, w2是多少，w1*x1 + w2*x2永远等于0，所以output = sigmoid(0) = 0.5。对于二分类任务，0.5是一个完全不确定的预测，模型失去了对“全零输入”做出有意义判断的能力。Bias 的作用，就是给这个线性组合加上一个“起始偏移量”：output = sigmoid(w1*x1 + w2*x2 + b)。当x1=x2=0时，output = sigmoid(b)。通过调整b，我们可以让模型在全零输入时，天然倾向于输出0（设b为很大的负数）或1（设b为很大的正数）。这在现实中极其重要：比如医疗诊断模型，当所有检测指标都缺失（即为0）时，模型不应武断地给出0.5的“中立”判断，而应基于先验知识，偏向“健康”或“风险”一侧。我在实现无 bias 版本时，特意测试了(0,0)的预测，结果稳定在0.57，离目标0差了十万八千里。加上 bias 后，经过训练，(0,0)的预测降到了0.02，这才是一个可靠模型应有的表现。

注意：Bias 的更新逻辑与 weight 截然不同。Weight 的更新依赖于输入x（Δw ∝ x * error * sigmoid_der），而 bias 的更新与x无关（Δb ∝ error * sigmoid_der）。因此，在代码中，weight 更新用np.dot(inputs.T, deriv)是矩阵运算，而 bias 更新必须用for i in deriv: bias -= lr * i的循环累加。漏掉这个区别，你的 bias 将永远无法正确学习。

3.3 学习率（Learning Rate）：不是超参数，而是“梯度步长”的物理标尺

学习率lr常被描述为“控制参数更新幅度的超参数”，这种说法过于笼统。更精确地说，lr是你在梯度下降这座“误差山”上，每一步迈出的物理长度。它的单位是“误差值 / 权重单位”。如果lr太大（比如1.0），你就像一个醉汉在陡峭的山坡上狂奔，一步就跨过了谷底，甚至直接冲下对面的悬崖（loss 瞬间爆炸）；如果lr太小（比如1e-6），你又像一个蜗牛，爬一万步还看不到谷底在哪（loss 下降极其缓慢）。我在实测中发现，对于 OR 门这个简单任务，lr=0.05是一个完美的平衡点：它能在约 5000 次迭代内将 loss 从0.25降到0.001以下，且全程平稳无震荡。但如果你把lr提高到0.5，loss 会在0.1到10.0之间疯狂跳变，模型根本无法收敛。有趣的是，lr的“合适值”与权重的初始规模强相关。当我把初始权重从0.1放大到1.0时，lr=0.05就变得过大，必须同步降低到0.005才能稳定。这印证了一个底层原理：lr的本质，是调节gradient * lr这个乘积项的量级，使其与权重本身的量级相匹配。所以，永远不要孤立地调lr，要把它和权重初始化、输入数据尺度作为一个整体来考虑。

4. 实操过程：从零开始构建一个可调试的神经网络

4.1 数据准备与预处理：OR 门——最精炼的“Hello World”

我们选择逻辑 OR 门作为训练数据，因为它足够简单，却包含了所有关键特征：非线性可分（(0,0)->0,(0,1)->1,(1,0)->1,(1,1)->1）、输入维度固定（2维）、标签明确（0或1）。数据定义如下：

import numpy as np # 定义输入特征：4个样本，每个样本2个特征 input_features = np.array([[0,0], [0,1], [1,0], [1,1]]) print("输入特征形状:", input_features.shape) # (4, 2) print("输入特征:\n", input_features) # 定义目标输出：4个样本，每个样本1个标签，reshape为列向量 target_output = np.array([[0,1,1,1]]).T # .T 是转置，等价于 reshape(4,1) print("目标输出形状:", target_output.shape) # (4, 1) print("目标输出:\n", target_output)

这里的关键细节是target_output的.T操作。如果不转置，np.array([[0,1,1,1]])的形状是(1,4)，是一个1行4列的矩阵。而我们的输入input_features是(4,2)，在后续的矩阵乘法np.dot(inputs, weights)中，weights需要是(2,1)，结果才是(4,1)。如果target_output是(1,4)，它与(4,1)的误差计算error = out_o - target_output会触发 NumPy 的广播机制，产生一个(4,4)的错误矩阵，后续所有梯度计算都将错得离谱。.T操作是确保维度严格对齐的第一道安全阀。

4.2 权重与偏置初始化：随机不是乱来，而是有约束的艺术

# 初始化权重：2个输入，1个输出，所以权重是 (2,1) 的矩阵 # 使用小随机数，避免sigmoid饱和 weights = np.random.randn(2, 1) * 0.1 print("初始权重形状:", weights.shape) # (2, 1) print("初始权重:\n", weights) # 初始化偏置：标量，但为了代码统一，我们也将其视为 (1,) 向量 bias = 0.3 print("初始偏置:", bias)

为什么是np.random.randn(2,1) * 0.1？randn生成标准正态分布（均值0，标准差1）的随机数。乘以0.1后，权重的典型值落在[-0.3, 0.3]区间。这样，当输入为[1,1]时，weighted_sum = 1*0.2 + 1*0.1 + 0.3 = 0.6，sigmoid(0.6) ≈ 0.64，处于梯度敏感区。如果用randn(2,1) * 10，weighted_sum可能高达20，sigmoid(20) ≈ 1.0，sigmoid_der(1.0) ≈ 0，梯度直接归零。这个初始化策略，是无数前辈用血泪换来的经验，它不是玄学，而是对激活函数数学特性的尊重。

4.3 前向传播（Feedforward）：把数学公式变成可执行的流水线

前向传播是整个网络的“预测引擎”，它必须绝对精确、可追溯。我们将其拆解为原子步骤：

# 定义Sigmoid函数 def sigmoid(x): return 1 / (1 + np.exp(-x)) # 定义Sigmoid导数函数（注意：输入是x，不是sigmoid(x)！） def sigmoid_der(x): # 这里x是加权和z，不是sigmoid(z)！ # 所以必须先算sigmoid(x)，再套公式 s = sigmoid(x) return s * (1 - s) # 主训练循环 for epoch in range(10000): # Step 1: 计算加权和 z = X * W + b # inputs是(4,2), weights是(2,1), 结果z是(4,1) z = np.dot(input_features, weights) + bias # Step 2: 应用激活函数，得到预测输出 o = sigmoid(z) # o的形状也是(4,1) o = sigmoid(z) # Step 3: 计算误差（这里用简单误差，非MSE，便于观察） # error是(4,1)矩阵，每个元素是该样本的预测误差 error = o - target_output # Step 4: 打印总误差，监控训练进程 if epoch % 1000 == 0: print(f"第 {epoch} 次迭代，总误差: {np.sum(np.abs(error)):.6f}")

这段代码的魔力在于它的“可打断性”。你可以在z计算后加一行print("z:", z)，看到四个样本的加权和分别是多少；在o计算后加print("o:", o)，看到预测值是否在合理范围；在error计算后加print("error:", error)，一眼看出哪个样本预测最差。这种颗粒度的可见性，是任何高级框架都无法提供的调试优势。

4.4 反向传播（Backpropagation）：链式法则的精密手术

反向传播是神经网络的“学习引擎”，其核心是链式法则。我们严格按照数学推导，一步步实现：

# Backpropagation 开始 # Step 1: 计算损失函数对输出o的偏导: ∂E/∂o # 这里E = (o - y)^2 / 2, 所以 ∂E/∂o = (o - y) = error dE_do = error # Step 2: 计算激活函数对加权和z的偏导: ∂o/∂z # o = sigmoid(z), 所以 ∂o/∂z = sigmoid_der(z) do_dz = sigmoid_der(z) # 注意：传入的是z，不是o！ # Step 3: 计算损失函数对加权和z的偏导: ∂E/∂z = ∂E/∂o * ∂o/∂z dE_dz = dE_do * do_dz # 形状 (4,1) # Step 4: 计算加权和z对权重W的偏导: ∂z/∂W # z = X * W + b, 所以 ∂z/∂W = X^T (X是(4,2), 所以∂z/∂W是(2,4)) # 因此，∂E/∂W = ∂E/∂z * ∂z/∂W = (4,1) * (2,4) -> 需要X.T (2,4) 与 dE_dz (4,1) 相乘 # 结果是 (2,1)，与weights形状一致 dE_dW = np.dot(input_features.T, dE_dz) # 关键！必须转置 # Step 5: 更新权重: W = W - lr * ∂E/∂W weights -= lr * dE_dW # Step 6: 计算加权和z对偏置b的偏导: ∂z/∂b = 1 # 所以 ∂E/∂b = ∂E/∂z * ∂z/∂b = dE_dz * 1 # 因为dE_dz是(4,1)，我们需要对每个样本的梯度求和，得到一个标量 dE_db = np.sum(dE_dz) # 对4个样本的梯度求和 bias -= lr * dE_db

这个实现的每一个=号，都对应着一个数学偏导数。dE_dW = np.dot(input_features.T, dE_dz)这行代码，就是链式法则∂E/∂W = (∂E/∂z) * (∂z/∂W)的编程直译。input_features.T的存在，不是为了凑维度，而是∂z/∂W这个雅可比矩阵的数学定义所决定的。忽略它，你的梯度更新就是错的。我在第一次实现时就漏掉了.T，结果weights的更新量变成了(4,2)，直接导致weights -= ...报错。这个错误，让我花了整整一小时才定位到，但也正是这次崩溃，让我把链式法则刻进了肌肉记忆。

4.5 训练监控与结果验证：用数字说话，拒绝模糊判断

训练完成后，我们必须用最硬的指标验证效果：

# 训练结束，打印最终权重和偏置 print("\n=== 训练完成 ===") print("最终权重:\n", weights) print("最终偏置:", bias) # 对每个输入进行预测，并与目标对比 test_inputs = [[0,0], [0,1], [1,0], [1,1]] for i, inp in enumerate(test_inputs): # 前向传播 z = np.dot(np.array(inp), weights) + bias pred = sigmoid(z) target = target_output[i, 0] print(f"输入 {inp} -> 预测 {pred[0]:.4f} -> 目标 {target} -> 误差 {abs(pred[0]-target):.4f}") # 计算整体准确率 predictions = sigmoid(np.dot(input_features, weights) + bias) accuracy = np.mean((predictions > 0.5) == target_output) print(f"\n整体准确率: {accuracy * 100:.2f}%")

输出结果应该类似：

输入 [0, 0] -> 预测 0.0123 -> 目标 0 -> 误差 0.0123 输入 [0, 1] -> 预测 0.9876 -> 目标 1 -> 误差 0.0124 输入 [1, 0] -> 预测 0.9875 -> 目标 1 -> 误差 0.0125 输入 [1, 1] -> 预测 0.9998 -> 目标 1 -> 误差 0.0002 整体准确率: 100.00%

这个100%的准确率，不是框架的魔法，而是你亲手用数学和代码，一砖一瓦垒起来的确定性。它证明了：只要前向传播、反向传播、参数更新的每一步都严格遵循数学，模型就一定能学会它该学的东西。这种确定性，是所有深度学习工程师梦寐以求的底气。

5. 常见问题与排查技巧实录：那些只有亲手写过才懂的坑

5.1 问题速查表：从现象到根源的精准定位

现象	可能根源	排查指令	解决方案
Loss 不下降，长期卡在高位（如0.25）	权重初始化过大，导致`sigmoid`饱和，梯度为0	`print("z:", z); print("sigmoid_der(z):", sigmoid_der(z))`	将`weights`初始化缩放为`* 0.01`，重新训练
Loss 剧烈震荡，忽高忽低（如0.01→5.0→0.02）	学习率`lr`过大，梯度更新步长超过最优解	`print("lr * dE_dW:", lr * dE_dW)`	将`lr`降低10倍（如0.05→0.005）
Loss 为 NaN（非数字）	`sigmoid`计算中`exp(-z)`溢出（`z`极大负数）	`print("z min:", np.min(z))`	在`sigmoid`函数中加入数值稳定处理： `def sigmoid(x):<br> x = np.clip(x, -500, 500) # 限制输入范围<br> return 1 / (1 + np.exp(-x))`
`(0,0)`输入预测始终为0.5，无法接近0	完全遗漏了`bias`项，或`bias`更新逻辑错误	`print("bias:", bias); print("z for [0,0]:", 0weights[0] + 0weights[1] + bias)`	检查代码中是否写了`+ bias`，并确认`bias`更新是`bias -= lr * np.sum(dE_dz)`
权重更新后形状错误（如从(2,1)变成(4,2)）	`np.dot`矩阵乘法顺序错误，或忘记`input_features.T`	`print("input_features shape:", input_features.shape)<br>print("dE_dz shape:", dE_dz.shape)`	严格遵循：`dE_dW = np.dot(input_features.T, dE_dz)`

5.2 独家避坑技巧：来自无数次崩溃的实战心得

技巧一：用“单样本调试法”锁定问题
不要一上来就喂4个样本。先把代码改成只处理第一个样本[0,0]：

# 临时修改，只训练一个样本 single_input = np.array([[0,0]]) single_target = np.array([[0]]) # 在循环内 z = np.dot(single_input, weights) + bias o = sigmoid(z) error = o - single_target # ... 后续梯度计算同理

这样，所有矩阵都退化为标量或1维向量，print出来的每一个中间变量都清晰可见。一旦单样本能跑通，再扩展到批量，问题就迎刃而解。这是我解决90%维度错误的终极武器。

技巧二：梯度的手动数值验证
怀疑你的sigmoid_der写错了？用最笨但最可靠的方法验证：

# 取一个点z=1.0 z = 1.0 h = 1e-5 numerical_grad = (sigmoid(z + h) - sigmoid(z - h)) / (2 * h) analytical_grad = sigmoid_der(z) print(f"数值梯度: {numerical_grad:.6f}, 解析梯度: {analytical_grad:.6f}") # 两者应该高度一致（误差 < 1e-6）

这个技巧能瞬间戳穿所有“我以为我懂了”的幻觉。我曾经以为sigmoid_der(x)就是x*(1-x)，数值验证后发现误差高达0.2，这才意识到自己犯了根本性错误。

技巧三：绘制“训练轨迹图”
在训练循环中，记录每次迭代的weights[0,0]、weights[1,0]和bias，最后用matplotlib绘图：

weight0_history = [] weight1_history = [] bias_history = [] for epoch in range(10000): # ... 训练代码 ... weight0_history.append(weights[0,0]) weight1_history.append(weights[1,0]) bias_history.append(bias) # 绘图 plt.plot(weight0_history, label='w0') plt.plot(weight1_history, label='w1') plt.plot(bias_history, label='bias') plt.legend() plt.show()

这张图会告诉你一切：如果线条是平滑收敛的，说明一切正常；如果w0和w1一个狂涨一个狂跌，说明你的数据或标签有严重不平衡；如果所有线都停滞不动，说明梯度为0。一张图，胜过千行日志。

6. 数学原理的深度补全：从链式法则到梯度下降的完整推演

6.1 为什么是“链式法则”？——因为它模拟了现实世界的因果链

链式法则dy/dx = dy/du * du/dx的本质，是描述一个系统中“扰动传递”的路径。在神经网络中，x是权重w，u是加权和z，y是损失E。我们想知道：w的微小变化dw，会如何影响最终的损失E？答案是：w先影响z（dz/dw = x），z再影响o（do/dz = sigmoid_der(z)），o最后影响E（dE/do = (o-y)）。这三段影响，必须连乘，才能得到w对E的总影响dE/dw。任何一环的缺失，都意味着你切断了因果链的一部分。这就是为什么dE/dw的代码必须是dE_do * do_dz * x的乘积，而不是其他任何形式。我在推导时，习惯在草稿纸上画一条竖线，左边写w，中间写z，右边写E，然后在线上标注dz/dw、dE/dz，强迫自己看清每一步的依赖关系。

6.2 梯度下降公式的物理意义：为什么是`w := w - lr * ∇E(w)`？

这个公式，是微积分中“方向导数”概念的工程实现。∇E(w)是损失函数E在当前权重w处的梯度向量，它指向E增加最快的方向。那么，-∇E(w)就指向E减少最快的方向。lr就是我们在该方向上迈出的步长。这个公式的精妙之处在于，它不需要你知道E的全局形状，只需要知道在你“此刻站立的位置”（当前w），哪边是下坡，以及下坡有多陡（梯度大小）。这就像是一个蒙着眼睛下山的人，他不需要看到整座山，只需要用脚试探脚下地面的倾斜度，然后朝着最陡的下坡方向走一小步。lr就是他决定的“一小步”有多长。太大，可能一步跨过山谷；太小，可能永远走不出小坑。而w := w - lr * ∇E(w)，就是这个蒙眼人最可靠的下山算法。

6.3 Mean Squared Error (MSE) 的导数：为什么`∂E/∂o = (o - y)`？

MSE 定义为E = (1/2) * Σ(o_i - y_i)^2。对单个样本i求导：
∂E/∂o_i = (1/2) * 2 * (o_i - y_i) * ∂(o_i - y_i)/∂o_i = (o_i - y_i) * 1 = (o_i - y_i)。
前面的1/2是为了抵消平方求导产生的2，让公式更简洁。这就是为什么在代码中，dE_do = error = o - y。这个1/2看似微小，却在数学推导中扮演着关键角色，它让最终的梯度表达式干净利落，没有多余的系数干扰。所有严谨的机器学习推导，都会包含这个1/2，它是专业性的无声宣言。

7. 实战延伸：从 OR 门到真实病毒预测的思维跃迁

原文提到了“预测病毒感染”的案例，这绝非噱头，而是对我们这套手写方法论的终极考验。想象一下，你的输入不再是简单的[0,1]，而是[年龄, 血压, 白细胞计数, C反应蛋白]这4个连续数值；你的标签不再是0/1，而是0.0（未感染）或1.0（已感染）。此时，input_features的形状从(4,2)变成了(N,4)，weights从 `(2,1

查看全文

http://www.gsyq.cn/news/1539682.html