MNIST – 编码无悔 / Intent & Focused

[原创] 《Neural Networks and Deep Learning》读书笔记：最简单的识别MNIST的神经网络程序(2)

learnhard — Thu, 31 Aug 2017 16:52:30 +0000

本文是上一篇文章的续文。
《Neural Networks and Deep Learning》一书的中文译名是《神经网络与深度学习》，书如其名，不需要解释也知道它是讲什么的，这是本入门级的好书。
在第一章中，作者展示了如何编写一个简单的、用于识别MNIST数据的Python神经网络程序。
本文接着上一篇文章对程序代码进行解析。

下面来看看 SGD() 方法的实现。先把它的完整代码贴上来：

def SGD(self, training_data, epochs, mini_batch_size, eta,
        test_data=None):
    """Train the neural network using mini-batch stochastic
    gradient descent.  The ``training_data`` is a list of tuples
    ``(x, y)`` representing the training inputs and the desired
    outputs.  The other non-optional parameters are
    self-explanatory.  If ``test_data`` is provided then the
    network will be evaluated against the test data after each
    epoch, and partial progress printed out.  This is useful for
    tracking progress, but slows things down substantially."""
    if test_data: n_test = len(test_data)
    n = len(training_data)
    for j in xrange(epochs):
        random.shuffle(training_data)
        mini_batches = [
            training_data[k:k + mini_batch_size]
            for k in xrange(0, n, mini_batch_size)]
        for mini_batch in mini_batches:
            self.update_mini_batch(mini_batch, eta)
        if test_data:
            print "Epoch {0}: {1} / {2}".format(
                j, self.evaluate(test_data), n_test)
        else:
            print "Epoch {0} complete".format(j)

代码自带详细注释，而且很容易看懂。
文章来源：https://www.codelast.com/
for j in xrange(epochs) 这句代码使得训练会进行epoch轮。
xrang()是Python自带函数，随便试验一下就知道它的作用了，例如：

for j in xrange(4):
    print(j)

这段代码输出的结果是：

0

1

2

3

所以，如果我们把epoch定义成4，那么循环就会进行4次，也就是说训练会进行4轮。
文章来源：https://www.codelast.com/
显然，for j in xrange(epochs) 下面的循环体里的代码，就是每一轮训练要执行的代码。
首先，random.shuffle(training_data)这一句的作用是什么呢？答：随机打乱training_data这个list。
为了说明它，我们打开ipython，来做一个相当简单的试验：

import numpy as np
import random
a = [(1, 2), (3, 4), (5, 6), (7, 8), (0, 9)]
random.shuffle(a)
print(a)
random.shuffle(a)
print(a)
random.shuffle(a)
print(a)

在上面的代码中，打印了3次 a 的内容，在我的PC上，3次print的输出分别如下：

[(7, 8), (0, 9), (1, 2), (3, 4), (5, 6)]
[(3, 4), (5, 6), (0, 9), (7, 8), (1, 2)]
[(1, 2), (0, 9), (5, 6), (3, 4), (7, 8)]

可见，random.shuffle()把list里的元素进行了随机打乱。由于是随机的，所以，你的测试结果可能和我的不一样。
随机打乱数据是为了防止某些pattern相似的输入数据集中在一个batch中，导致对训练结果产生负面影响。SGD不就是“随机梯度下降”嘛。
文章来源：https://www.codelast.com/
在打乱数据之后，程序就把所有输入数据拆分成了若干个批量（mini batch），每一个batch的大小是由mini_batch_size定义的：

mini_batches = [
    training_data[k:k+mini_batch_size]
    for k in xrange(0, n, mini_batch_size)]

这里的xrange用法和上面的xrange稍有不同，我们还是用一个实例来表明它的作用：

for k in xrange(0, 10, 3):
    print(k)

这段代码把mini_batch_size设置成了3，它的输出结果是：

0

3

6

9

可见，它会使k从0开始，按mini_batch_size的大小为步长递增，但最大值不超过第二个参数。
所以，training_data也是按这个套路实现了分割。
文章来源：https://www.codelast.com/
在training_data分割得到了若干个mini batch之后，下面就是对每一个mini batch分别进行训练，从而求得参数向量

$w$ 和

$b$ 的值。但这里是一个串行的计算，也就是说第一个mini batch计算完了，才轮到第二个mini batch计算，依此类推。
对每一个mini batch求解参数向量，其实就是这一句代码调用（eta即

$\eta$ ，学习率，这是一个人为设定其值的超参数）：

self.update_mini_batch(mini_batch, eta)

有人可能会说，这跟待求的参数向量 $w$ 和 $b$ 没什么关系啊？在上一篇文章中我们看到， $w$ 和 $b$ 被定义成了Network类的成员变量，update_mini_batch()其实是在函数体内计算出、并更新了它们的值，所以只是表面上看起来“没关系”，实际上完全有关系。

在循环迭代完所有的mini batch之后， $w$ 和 $b$ 的值也就被更新完了，即“学习”的过程也就结束了。所以，随着迭代的进行， $w$ 和 $b$ 的值越来越接近理想值，所有迭代结束之后，我们就认为 $w$ 和 $b$ 的值已经达到了理想值。
文章来源：https://www.codelast.com/
在每一轮迭代的最后，有下面这段代码：

if test_data:
    print "Epoch {0}: {1} / {2}".format(j, self.evaluate(test_data), n_test)
else:
    print "Epoch {0} complete".format(j)

在每一轮迭代更新完 $w$ 和 $b$ 的值之后，如果test_data不为空的话，那么就会用evaluate()方法对本轮的计算结果进行评估。理论上，随着迭代一轮一轮的进行，评估结果应该越来越好。
文章来源：https://www.codelast.com/
所以，现在最关键的代码就封装在了方法中。这个方法是怎么对 $w$ 和 $b$ 进行计算的呢？且听下回分解。
文章来源：https://www.codelast.com/
➤➤ 版权声明 ➤➤
转载需注明出处：codelast.com
感谢关注我的微信公众号（微信扫一扫）：

[原创] 《Neural Networks and Deep Learning》读书笔记：反向传播的4个基本方程(1)

learnhard — Sat, 21 Jan 2017 09:40:11 +0000

从反向传播的4个基本方程这部分内容开始，《Neural Networks and Deep Learning》一书基本上是满屏的数学公式了，然而，得益于作者强大的、深入浅出的表述能力，理解起来并不会让人感觉那么难。
本文将描述反向传播的4个基本方程中的第一个——输出层误差的方程：

$\delta _j^L = \frac{{\partial C}}{{\partial a_j^L}}\sigma '\left( {z_j^L} \right)$
就算完全看不懂这个公式的含义，也千万不要被吓到，毕竟它才如此之短。
本文将解释一下这个公式的含义。但我必须得说，如果没有上下文的话，再怎么看解释也是没用的，毕竟这些符号是什么意思都是作者定义的，所以，必须结合原书来理解。
其中：
$\delta _j^L$ 代表神经网络的第 L 层、第 j 个神经元产生的误差。
C 代表代价函数（cost function），a 代表神经网络的输出激活（activation）值，由于每一个神经元都有一个输出激活值，所以 a 是一个向量。把 a 看成一个变量， $\frac{{\partial C}}{{\partial a}}$ 就表示用代价函数对输出激活值求导。
$\sigma$ 是作者书中所说的“”，其实就是激活函数，因为作者在书的前面章节中已经定义过 ${a^l} = \sigma ({w^l}{a^{l - 1}} + {b^l})$ ，所以输出激活值就是把再应用一个 $\sigma$ ，这就是激活函数。
z 代表的是，即 ${z^l} = {w^l}{a^{l - 1}} + {b^l}$ ，把 z 看作变量，所以 $\sigma '\left( {z_j^L} \right)$ 表示的就是激活函数对带权输入求导。数学公式已经忘得差不多的话，一定要注意这里不是表示两个式子相乘，而是一个表示求导的式子。
文章来源：http://www.codelast.com/
现在先看（1）：为了理解这句话，要从此书前面部分的『关于代价函数的两个假设』一节说起。“两个假设”中的其中一个就是，神经网络的代价（cost）可以写成神经网络输出的激活值的函数：

这里的 ${a^L}$ 是一个向量，因为神经网络的某一层，会有N个神经元，每一个神经元都有一个输出激活值，例如 $a_1^L$ ， $a_2^L$ ，等等。

知道了这一点，再来看看这句话里所说的误差是什么？在机器学习中，我们的目的是最小化代价函数（cost function），而根据高等数学的导数知识：

一个函数在某一点的导数描述了这个函数在这一点附近的变化率。

因此，如果用代价函数对输出激活值 ${a^L}$ 求导，就可以刻划出输出激活值的改变，会对cost造成多大的影响： $\frac{{\partial C}}{{\partial a_j^L}}$
顺水推舟，作者就定义了一个“”的概念，用来表示神经元的输出变化，会对cost造成多大的影响——影响大，误差就大；影响小，误差就小。
但是这里有一个概念上的替换需要注意：作者实际上并没有把误差定义成代价函数对输出激活值 ${a^L}$ 的导数 $\frac{{\partial C}}{{\partial a_j^L}}$ ，而是代价函数对 $z$ 的导数 $\frac{{\partial C}}{{\partial z_j^l}}$
我第一眼看到这个定义的时候，觉得把误差定义成代价函数对输出激活值的导数更自然——作者已经在书里解释了为什么要这样做：结果是差不多的，但是数学推导会变得更复杂，所以就把误差定义成了一个看起来“不那么自然”的东西。
文章来源：http://www.codelast.com/
总结一下：
已知 $C = C(a)$ ， $a = \sigma (z)$ ，并且我们希望用 C 对 z 的导数 $\frac{{\partial C}}{{\partial z}}$ 来表示神经元的输出对 cost 造成的影响，所以根据复合函数的求导法则，就可以得到反向传播的第一个基本方程了。

但有一点奇怪的是，为什么要定义这个“误差”呢？定义它是为了能找到计算 $\frac{{\partial C}}{{\partial w}}$ 以及 $\frac{{\partial C}}{{\partial b}}$ 的方法——计算这两个值就是反向传播的目的。

文章来源：https://www.codelast.com/
➤➤ 版权声明 ➤➤
转载需注明出处：codelast.com
感谢关注我的微信公众号（微信扫一扫）：

[原创] 《Neural Networks and Deep Learning》读书笔记：最简单的识别MNIST的神经网络程序(1)

learnhard — Wed, 04 Jan 2017 16:27:05 +0000

《Neural Networks and Deep Learning》一书的中文译名是《神经网络与深度学习》，书如其名，不需要解释也知道它是讲什么的，这是本入门级的好书。
在第一章中，作者展示了如何编写一个简单的、用于识别MNIST数据的Python神经网络程序。对于武林高手来说，看懂程序不会有任何困难，但对于我这样的Python渣则有很多困惑。所以我对做了一些笔记，希望同时也可以帮助有需要的人。

『1』原文及程序
在这里，先把中译版部分贴上来，以方便后面的笔记记录（这只是一部分）：

在给出一个完整的清单之前，让我解释一下神经网络代码的核心特征，如下。核心是一个Network类，我们用来表示一个神经网络。这是我们用来初始化一个Network对象的代码:

class Network(object):

    def __init__(self, sizes):
        self.num_layers = len(sizes)
        self.sizes = sizes
        self.biases = [np.random.randn(y, 1) for y in sizes[1:]]
        self.weights = [np.random.randn(y, x) 
                        for x, y in zip(sizes[:-1], sizes[1:])]

在这段代码中，列表sizes包含各层的神经元的数量。因此举个例子，如果我们想创建一个在第一层有2个神经元，第二层有3个神经元，最后一层有1个神经元的network对象，我们应这样写代码：

net = Network([2, 3, 1])

Network对象的偏差和权重都是被随机初始化的，使用Numpy的np.random.randn函数来生成均值为0，标准差为1的高斯分布。随机初始化给了我们的随机梯度下降算法一个起点。在后面的章节中我们将会发现更好的初始化权重和偏差的方法，但是现在将采用随机初始化。注意Network初始化代码假设第一层神经元是一个输入层，并对这些神经元不设置任何偏差，因为偏差仅在之后的层中使用。

同样注意，偏差和权重以列表存储在Numpy矩阵中。因此例如net.weights[1]是一个存储着连接第二层和第三层神经元权重的Numpy矩阵。（不是第一层和第二层，因为Python列中的索引从0开始）因此net.weights[1]相当冗长，让我们就这样表示矩阵

$w$ 。矩阵中的

${w_{jk}}$ 是连接第二层的

${k^{th}}$ 神经元和第三层的

${j^{th}}$ 神经元的权重。

『2』程序解读
正如上面的代码示例，创建一个Network对象的时候，传入的是一个list，例如 [2, 3, 1]，list中有几个元素就表示神经网络有几层，从list中的第一个元素开始，每一个元素依次表示第1层、每2层、……第n层的神经元的数量。
这个不难理解，比较难理解的是 bias（偏差）以及 weight（权重）的表示方式。
文章来源：https://www.codelast.com/
我们先来看 bias（偏差）：

self.biases = [np.random.randn(y, 1) for y in sizes[1:]]

首先需要明确的是，中括号表明了 biases 是一个list，中括号里的内容是对这个list进行赋值的代码，它采用了一个for循环的方式来赋值，例如下面的代码：

a = [i for i in range(3)]
print(a)

会输出结果：

[0, 1, 2]

所以，np.random.randn(y, 1) for y in sizes[1:] 这部分代码表达的就是—— list中的每一个元素都是 np.random.randn(y, 1) 这个表达式的计算结果，而这个表达式是含有变量 y 的，y 必须要有实际的值才能计算，所以用一个for循环来给 y 赋值，y 能取的所有值就是对 sizes[1:] 这个list进行遍历得到的。前面已经说过了，sizes本身是一个list，而sizes[1:] 表示的是取这个 list 从第2个元素开始的子集，给个例子：

a = [5, 6, 8]
print(a[1:])

会输出：

[6, 8]

所以，在我们前面用 net = Network([2, 3, 1]) 这样的代码来创建了一个对象之后，sizes[1:] 的内容其实就是 [3, 1]，所以 y 的取值就是 3 和 1，所以 biases 这个list的第一个元素就是 np.random.randn(3, 1)，第二个元素就是 np.random.randn(1, 1)。
文章来源：https://www.codelast.com/
我觉得经过这样解释，biases 在结构上看来是什么东西已经比较清楚了吧？
那么话说回来，我们虽然知道了 np.random.randn(3, 1) 是 biases 的第一个元素，但 np.random.randn() 又是什么鬼？
且听我道来：
np 是这个Python程序 import 进来的Numpy库的缩写：

import numpy as np

randn() 是Numpy这个库中，用于生成标准正态分布数据的一个函数。其实 randn(3, 1) 生成的是一个3x1的随机矩阵，我们可以在Python命令行中直接试验一下：

import numpy as np

np.random.randn(3, 1)

输出结果如下：

array([[ 1.33160979],

[ 0.66314905],

[ 0.27303603]])

可见，它输出的是一个3行，1列的随机数矩阵——你看这输出多体贴，为了表明“3行1列”，它没有把数字都排在一行，而是特意放在了3行里。
好了，现在我们已经彻底了解了 biases 的结构，那么再来看看，为什么它的第一个元素是3x1的矩阵，第二个元素是1x1的矩阵呢？
这跟要创建的神经网络层的结构有关。
文章来源：https://www.codelast.com/
如作者书中所说，“假设第一层神经元是一个输入层，并对这些神经元不设置任何偏差，因为偏差仅在之后的层中使用”，所以 biases 只有两个元素，而不是3个。但知道了这一点并不能解决我们心中的疑惑：为什么 biases[0] 是一个 3x1 的矩阵，biases[1] 是一个 1x1 的矩阵呢？

这就跟weight（权重）有关了，所以，我们不妨先来看看代码中，weight是如何定义的：

self.weights = [np.random.randn(y, x) for x, y in zip(sizes[:-1], sizes[1:])]

这个冗长的实现需要“细细品味”。
首先，中括号表明 weights 是一个list，中括号里的代码对这个list的每一个元素进行赋值，list中的每一个元素都是一个 np.random.randn(y, x) ——这个东西我们刚才在解释 biases 的时候已经说过了，它是一个y行x列的随机数矩阵。那么y和x的具体值又是什么呢？它们是由for循环定义的：

for x, y in zip(sizes[:-1], sizes[1:])

首先要注意，这里是按 x, y 的顺序来赋值的，而不是 y, x，这和 np.random.randn(y, x) 中的顺序相反。
其中，zip()是Python的一个内建函数，它接受一系列可迭代的对象（例如，在这里是两个list）作为参数，将对象中对应的元素打包成一个个tuple（元组），然后返回由这些tuples组成的list。
为了形象地说明zip()的作用，我们来看看这句简单的代码：

zip([3, 4], [5, 9])

它的输出是：

[(3, 5), (4, 9)]

可见，zip() 分别取出 [3, 4] 以及 [5, 9] 这两个 list 的第一个、第二个元素，然后合成了两个 tuple：(3, 5) 和 (4, 9)，然后再把这两个tuple组成一个list：[(3, 5), (4, 9)]。所以，假设我们有如下代码：

for x, y in zip([3, 4], [5, 9])

那么 x, y 的取值就有两组了：3, 5 和 4, 9。
有了这样直观的对比，我们已经可以理解 for x, y in zip(sizes[:-1], sizes[1:]) 是什么含义了。其实 sizes 就是一个含有3个元素的list：[2, 3, 1]，因此 sizes[:-1] 就是去掉最后一个元素的子list，即 [2, 3]；而 sizes[1:] 就是去掉第一个元素的子list，即 [3, 1]。
所以现在真相大白：x, y 的取值有两组，一组是 2, 3，另一组是 3, 1。
再回去看 weights 的赋值代码，于是可以秒懂：weights 的第一个元素 weights[0] 是一个 3x2 的随机数矩阵，weights 的第二个元素 weights[1] 是一个 1x3 的随机数矩阵。
文章来源：https://www.codelast.com/
现在总结一下：
biases[0]：3x1 的矩阵
biases[1]：1x1 的矩阵
weights[0]：3x2 的矩阵
weights[1]：1x3 的矩阵

虽然我们已经精确分析出了那段代码的含义，但有人可能还是要问：为什么创建的bias和weight是这些维度的？
为了能帮助理解，我们画出这个神经网络的结构（第一层有2个神经元，第二层有3个神经元，最后一层有1个神经元）：

https://www.codelast.com/
从图上我们可以一眼看出，第一层的输入向量（也就是 $wx + b$ 中的 $x$ ）是一个2行1列的向量，或者说是一个 2x1 的矩阵；第二层的 $x$ 是一个3行1列的向量，或者说是一个 3x1 的矩阵。
我们知道，除了输出层（output）之外，每一层的输入 $x$ 都要经过一个 $wx + b$ 的运算（这里忽略了激励函数），得到一个矩阵，作为下一层的输入。式中既然有weight（w）和 $x$ 向量的点乘，weight矩阵的列数就必须和 $x$ 向量的行数相等，所以这里是不是恰好符合这个规则呢？
来看看：
第一层→第二层的 $wx + b$ 运算就是，即 (3x2矩阵) $\cdot$ (2x1矩阵) + (3x1矩阵)，结果是一个 3x1 的矩阵，这个矩阵，作为下一层的输入，实际上就是下一层的 $x$ 。前面我们分析过，第二层的 $x$ 应该是一个 3x1 的矩阵，这与运算结果完全相符。
第二层→第三层的 $wx + b$ 运算就是，即 (1x3矩阵) $\cdot$ (3x1矩阵) + (1x1矩阵)，结果是一个 1x1 的矩阵，其实就是一个标量，由于后面已经没有其他层，所以这个标量就是整个神经网络的output。

通过以上不厌其烦的分析，相信任何人都能搞明白那仅有不到10行的代码是如何巧妙地定义了一个神经网络，搞定！
文章来源：https://www.codelast.com/
➤➤ 版权声明 ➤➤
转载需注明出处：codelast.com
感谢关注我的微信公众号（微信扫一扫）：