machine learning – 编码无悔 / Intent & Focused

深度学习（Deep Learning）现在这么火，树莓派玩家们当然也不会放过，目前已经有很多树莓派项目都搭上了Deep Learning的车，纯粹出于“好玩”的目的，我在树莓派上也实验了一把，用TensorFlow来识别一张图片里的物体“是什么”。

『1』对深度学习（Deep Learning）的简单介绍
以下解释来自维基百科：

深度学习是机器学习拉出的分支，它试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。

深度学习的用途实在太广泛，最为普通人所熟知的，就是以下和民生相关的应用：人脸识别，语音识别，图像搜索，在线翻译，等等。
目前流行的深度学习框架有TensorFlow（Google开源），MXNet（得到Amazon支持），Theano等，利用这些框架，我们只需要做比较少的工作，就能把深度学习能力带入我们自己的程序。
文章来源：http://www.codelast.com/
『3』树莓派上的深度学习
当前，主流的深度学习框架都不是主要为了移动平台／嵌入式平台而准备的——这是由于计算能力所限，在移动平台上运行local的深度学习程序，计算速度通常会非常慢。因此，移动平台上主要还是采用向云端提交计算请求、云端计算完成后返回结果的方式来处理数据。
作为一个“类嵌入式”平台，树莓派虽然是同类型里最受关注的产品，但我认为在深度学习的世界里，树莓派还没到像Android、iOS那种“开发一个App必须要支持”的程度。
因此，把任何一个主流的深度学习框架，在树莓派上跑起来都将是一个耗时耗力的工作。
好在TensorFlow是如此流行，并且IT界永远不缺牛人，已经有人把它成功地“移植”到了树莓派3代上（看这里），所以，在树莓派上用TensorFlow来实现深度学习应用是一个不错的选择。
文章来源：http://www.codelast.com/
『3』在树莓派上安装TensorFlow
按作者的文档，通过极其简单的几步操作，就可以在树莓派上把TensorFlow跑起来。如果你有兴趣，可以直接去看作者写的教程。
首先要声明的是：

作者在树莓派上使用的最流行的Linux发行版Raspbian，而我使用的OS是Arch Linux ARM，不过这无所谓，经过我的测试，没有问题（至少我没遇到）
由于在树莓派上开发其他程序的原因，我已经预先安装过了比较多的开发库／软件，类似于Protocol Buffers，NumPy，pip等，而这些软件有些可能会被TensorFlow依赖，所以，我就不需要像作者的文档里说的一样另外再去安装它们了

文章来源：http://www.codelast.com/
然后剩下最关键的一步就是，从GitHub下载一个wheel文件并安装。
wheel是众多Python软件安装包格式中的一种，本质上是一个zip包格式，它使用.whl作为扩展名，用于安装Python模块。

如果你使用Python 2.7：

wget https://github.com/samjabrahams/tensorflow-on-raspberry-pi/releases/download/v0.11.0/tensorflow-0.11.0-cp27-none-linux_armv7l.whl
sudo pip install tensorflow-0.11.0-cp27-none-linux_armv7l.whl

如果你使用Python 3.3+（但据作者所说，3.5以及3.6是不保证能支持的，不过，我用3.5.2还是安装成功了）：

wget https://github.com/samjabrahams/tensorflow-on-raspberry-pi/releases/download/v0.11.0/tensorflow-0.11.0-py3-none-any.whl
sudo pip3 install tensorflow-0.11.0-py3-none-any.whl

下载whl安装包的过程可能会比较漫长，我使用的是Python 3.5.2，下面是我的命令行输出内容：

Processing ./tensorflow-0.10.0-py3-none-any.whl

Collecting protobuf==3.0.0b2 (from tensorflow==0.10.0)

Downloading protobuf-3.0.0b2-py2.py3-none-any.whl (326kB)

100% |████████████████████████████████| 327kB 11kB/s

Collecting wheel>=0.26 (from tensorflow==0.10.0)

Downloading wheel-0.29.0-py2.py3-none-any.whl (66kB)

100% |████████████████████████████████| 71kB 18kB/s

Requirement already satisfied (use --upgrade to upgrade): numpy>=1.8.2 in /usr/lib/python3.5/site-packages (from tensorflow==0.10.0)

Requirement already satisfied (use --upgrade to upgrade): six>=1.10.0 in /usr/lib/python3.5/site-packages (from tensorflow==0.10.0)

Requirement already satisfied (use --upgrade to upgrade): setuptools in /usr/lib/python3.5/site-packages (from protobuf==3.0.0b2->tensorflow==0.10.0)

Installing collected packages: protobuf, wheel, tensorflow

Successfully installed protobuf-3.0.0b2 tensorflow-0.10.0 wheel-0.29.0

You are using pip version 8.1.2, however version 9.0.1 is available.

You should consider upgrading via the 'pip install --upgrade pip' command.

文章来源：http://www.codelast.com/
然后呢？然后就搞定了！就这么简单！

如果上面的步骤失败了，那么你就只能选择从源码来编译TensorFlow，这是一个相当麻烦的工作，只能祝你好运了，不过好消息就是，作者已经帮大家踩过很多坑了，教程在这里。

『4』在树莓派上使用TensorFlow
要识别一张图片里的物体是什么，我们需要先训练一个图像分类模型，这个过程非常消耗计算资源，在树莓派上干这事是不明智的，我们可以直接使用Google已经训练好的Inception-v3模型。

Inception-v3 is trained for the ImageNet Large Visual Recognition Challenge using the data from 2012. This is a standard task in computer vision, where models try to classify entire images into 1000 classes, like "Zebra", "Dalmatian", and "Dishwasher".

先下载Inception-V3模型到任意目录中，并解压出来：

mkdir ~/tensorflow-related/model
cd ~/tensorflow-related/model
wget http://download.tensorflow.org/models/image/imagenet/inception-2015-12-05.tgz
tar xf inception-2015-12-05.tgz

解压出来一堆文件：

classify_image_graph_def.pb

cropped_panda.jpg

imagenet_2012_challenge_label_map_proto.pbtxt

imagenet_synset_to_human_label_map.txt

LICENSE

然后就可以开始进行图像识别啦。在这里我从网上找了一张时下很流行的摩拜单车（Mobike）的图片：

文章来源：http://www.codelast.com/
用TensorFlow来识别它：

cd /usr/lib/python3.5/site-packages/tensorflow/models/image/imagenet
python3.5 classify_image.py --model_dir /root/tensorflow-related/model --image_file /root/tensorflow-related/test-images/mobike.jpg

其中，/usr/lib/python3.5/site-packages/tensorflow/models/image/imagenet 这个路径是TensorFlow的 Python图像分类程序 classify_image.py 所在的路径，不同的OS可能不一样。
--model_dir 参数传入的是我们前面解压出来的模型文件所在的路径，--image_file 是待识别的图片的路径。
注：如果找不到classify_image.py文件，请参考本文末的更新说明。
输出如下：

/usr/lib/python3.5/site-packages/tensorflow/python/ops/array_ops.py:1750: VisibleDeprecationWarning: converting an array with ndim > 0 to an index will result in an error in the future

result_shape.insert(dim, 1)

W tensorflow/core/framework/op_def_util.cc:332] Op BatchNormWithGlobalNormalization is deprecated. It will cease to work in GraphDef version 9. Use tf.nn.batch_normalization().

bicycle-built-for-two, tandem bicycle, tandem (score = 0.33731)

tricycle, trike, velocipede (score = 0.16082)

unicycle, monocycle (score = 0.12926)

mountain bike, all-terrain bike, off-roader (score = 0.10689)

parking meter (score = 0.01563)

[root@alarmpi imagenet]# python3.5 classify_image.py --model_dir /root/tensorflow-related/model --image_file /root/tensorflow-related/test-images/mobike.jpg

/usr/lib/python3.5/site-packages/tensorflow/python/ops/array_ops.py:1750: VisibleDeprecationWarning: converting an array with ndim > 0 to an index will result in an error in the future

result_shape.insert(dim, 1)

W tensorflow/core/framework/op_def_util.cc:332] Op BatchNormWithGlobalNormalization is deprecated. It will cease to work in GraphDef version 9. Use tf.nn.batch_normalization().

mountain bike, all-terrain bike, off-roader (score = 0.56671)

tricycle, trike, velocipede (score = 0.12035)

bicycle-built-for-two, tandem bicycle, tandem (score = 0.08768)

lawn mower, mower (score = 0.00651)

alp (score = 0.00387)

可见，TensorFlow认为图片是山地自行车（mountain bike）／全地形自行车（all-terrain bike）／越野车（off-roader）的概率是0.56671，识别结果还算可以。
文章来源：http://www.codelast.com/
『5』计算速度问题
上面的一次图像识别试验，总共花了50多秒的时间！这么慢的速度在实际应用中基本没有实用价值。
但实际上，这个时间是可以大幅缩短的。

为模型“预热”很有必要。根据作者等人的性能测试结果，在合理预热的情况下，计算时间会减少较多。我测试了一下，请看这篇文章。
我们每运行一次程序，就重新加载一次模型，而模型文件又很大，这非常浪费时间，所以，应该把程序做成一个常驻内存的程序，只加载一次模型，每次识别一幅图像就能减少很多很多时间。我也实验了一下，请看这篇文章。
使用TensorFlow的C++接口来实现程序应该比Python版速度快，可以尝试。
暂时还不能让TensorFlow使用树莓派的GPU来计算（看这里），但大家期待未来有一天这个愿望会实现。

所以至少50多秒这种恐怖的数字是可以避免的。
文章来源：http://www.codelast.com/
『6』在树莓派上跑TensorFlow有什么用
我随意想到的一个可能有意义的应用就是：一个幼儿辅助学习系统。在树莓派上挂载一个摄像头，孩子在摄像头前拿着一样东西，摄像头抓拍一张图片，识别出里面的东西，朗读出概率最大的那个英文单词。
当然，这里面有非常多的工程上的问题需要解决。

我相信，随着树莓派下一代的计算能力继续增强，以及TensorFlow每一次发布，都让性能提高一些，在不久的将来，在树莓派上跑TensorFlow应用的实用性将会非常好。
文章来源：http://www.codelast.com/
『7』更新

2017.03.19更新

在本文写完之后不久，作者就发布了基于TensorFlow 1.0.0的Python wheel包，我试验了一下，它无法在Python 3.6.0的环境下安装，提示错误是：

tensorflow-1.0.0-cp34-cp34m-linux_armv7l.whl is not a supported wheel on this platform

作者说这是因为暂时不支持Python 3.5+。所以为了装上新版的TensorFlow，我用回了Python 2.7，然后就发现可以正常安装了：

pacman -S python2 python2-pip
pip2 install tensorflow-1.0.0-cp27-none-linux_armv7l.whl

期待以后能支持。

2017.08.19更新

如果你安装的是1.1.0版本的TensorFlow on Raspberry Pi，那么你会发现你找不到classify_image.py文件，这是因为此版本确实不再包含该文件，这时你可以在TensorFlow的这个子项目里找到该文件。

文章来源：https://www.codelast.com/
➤➤ 版权声明 ➤➤
转载需注明出处：codelast.com
感谢关注我的微信公众号（微信扫一扫）：

[原创] 用人话解释机器学习中的Logistic Regression（逻辑回归）

learnhard — Fri, 19 Feb 2016 08:47:08 +0000

友情提示：如果觉得页面中的公式显示太小，可以放大页面查看（不会失真）。

Logistic Regression（或Logit Regression），即逻辑回归，简记为LR，是机器学习领域的一种极为常用的算法／方法／模型。
你能从网上搜到十万篇讲述Logistic Regression的文章，也不多我这一篇，但是，就像我写过的最优化系列文章一样，我仍然试图用“人话”来再解释一遍——可能不专业，但是容易看得懂。那些一上来就是几页数学公式什么的最讨厌了，不是吗？
所以这篇文章是写给完全没听说过Logistic Regression的人看的，我相信看完这篇文章，你差不多可以从无到有，把逻辑回归应用到实践中去。

Logistic Regression是一种分类算法。分类，也就是把一个群体（或问题，或数据）分为几个类别，例如，男/女/人妖；爱她的人/不爱她的人；今天会下雨/今天不会下雨。
Logistic Regression最常用于处理“二分类”问题，也就是说分类只有两个，像“爱她的人/不爱她的人”就是二分类，而“男/女/人妖”就不是二分类。当然，Logistic Regression也可以用于处理多分类问题，即所谓的“多分类逻辑回归”（Multiclass Logistic Regression），但本文并不涉及这个方面。
所以，说得简单点就是，给你一条数据，用Logistic Regression可以判断出这条数据应该被分到两个类别中的哪个中去。
文章来源：http://www.codelast.com/
Logistic Regression在现实世界中非常有用。例如，可以用它来判断一个用户是否会点击一个广告（会点击／不会点击），可以用Logistic Regression来判断两类人是否会相爱（会相爱／不会相爱），等等。

机器学习的主旨就是通过对历史数据的计算（即“学习”），得到一些未知参数的值，从而可以推断出新数据会有什么结论。例如一个非常简单的函数： $y = ax + b$ ，在已知几组 $(x,y)$ 历史数据的情况下：

(1, 5.5)
(1.5, 7)
(2, 6.5)

我们怎样能够预测一个未知的自变量 $x = 3$ 会对应什么样的因变量 $y$ 呢？也就是说， $x = 3$ 时 $y = ?$
显然我们的任务就是计算出两个未知参数 $a$ 和 $b$ 的值，有了这两个值，那么任意给定一个 $x$ ，我们都能通过函数 $y = ax + b$ 计算出 $y$ 的值了，这就是所谓的“预测”。
http://www.codelast.com/
Logistic Regression也是类似，我们有一个函数 $y = f(X)$ ，里面包含若干个未知参数 ${\theta _0},{\theta _1},{\theta _2}, \cdots ,{\theta _n}$ 。
由于现实世界是复杂的，因变量 $y$ 通常会跟很多因素（自变量 $x$ ）有关系，即 ${x_0},{x_1},{x_2}, \cdots ,{x_n}$ ，所以这里自变量是一个，这里用大写的 $X$ 来表示。同理，那一堆未知的参数也是一个向量，用一个字母 $\theta$ 来表示。
现在给我们一堆 $(x,y)$ 的历史数据，我们要想办法计算出所有未知参数的值，然后就可以拿来预测新的 $x$ 值所对应的 $y$ 值了。
但是这个函数是什么呢？如下：

其中， $\theta$ 是参数向量， $X$ 是自变量（向量）。
文章来源：http://www.codelast.com/
那么，这个略显奇怪的函数是怎么来的呢？
首先我们看 ${{\theta ^T}X}$ 这部分：这是参数向量与自变量（向量）的点积，这个式子想要表达的含义是：计算某个事件发生的可能性，可以把跟这个事件相关的所有特征加权求和。例如，要求今天下雨的可能性，可以把今天所有和下雨相关的概率加权求和，例如梅雨季节权重为9（每天都很可能下雨），有台风经过权重为6，等等，每一个因素都影响着“下雨的可能性”，即：
$s = \sum\limits_{i = 0}^n {{\theta _i}{x_i}} = {\theta _0}{x_0} + {\theta _1}{x_1} + \cdots + {\theta _n}{x_n} = {\theta ^T}X$
但是这个加权求和的结果是在 $( - \infty , + \infty )$ 范围内的，为了能表示预测的概率，我们希望把输出值限制在 $(0,1)$ 之间，而不是 $( - \infty , + \infty )$ 。所以，这时，逻辑函数就出场了。

文章来源：http://www.codelast.com/
通过这个WiKi页面你可以知道，其实所谓的逻辑函数，就是这样的一个函数：

$P(t) = \frac{1}{{1 + {e^{ - t}}}}$
这个函数是由 Pierre François Verhulst（皮埃尔·弗朗索瓦·韦吕勒）在1844～1845年的时候给它起的名字。而我们上面的函数(1)，就是这个形式。
逻辑函数的图像是这个样子的：

它的函数值刚好就是在(0,1)之间。
所以，我们通过逻辑函数，就可以计算出一个事件的概率了（(0,1)之间）。但是不要忘了，我们前面说要处理二分类问题，得到一个(0,1)之间的任意值并不能归到两个分类中的一个里去，所以还要把这个概率值“归类”。其实这里很简单，我们可以在

$f(X) > 0.5$ 的时候，把它归到类别1中，

$f(X) \le 0.5$ 的时候，把它归到类别2中就可以了（概率值的“分水岭”可以根据实际情况调整）。用数学公式来表达这段话的含义就是：

$y' = \left\{ {\begin{array}{*{20}{c}}{0,f(X) > 0.5}\\{1,f(X) \le 0.5}\end{array}} \right.$

在各种机器学习的文章中，你都会看到，它们给了逻辑函数一个常用的名字：Sigmoid函数。sigmoid，意为“S形的”，这正符合其函数图像特点，所以大家记住就行了。
http://www.codelast.com/
现在，我们已经有了函数，下一步任务就是求出函数表达式中的未知参数向量 $\theta$ 了。这个过程是机器学习中最为核心的计算步骤。
以前面讲过的函数 $y = ax + b$ 为例：
你会发现，当已知几组 $(x,y)$ 数据的情况下：

(1, 5.5)
(1.5, 7)
(2, 6.5)

你无论如何也不可能找到一对 $a$ 和 $b$ 的值，使得以上3组数据能精确地满足方程 $y = ax + b$ ，正如下面的图像所示：

这条直线如果要精确地通过其中的两个点，那么就不能通过第三个点。所以，最终求出来的 $a$ 和 $b$ 的值，并不是方程的解析解，而是“最优解”。
因此，问题在于，我们如何画一条直线，使得其是“最优”的？“最优”的评判标准是什么？
文章来源：http://www.codelast.com/
为了理解“最优”，我们需要先了解一些概念。

损失函数／Loss Function／代价函数／Cost Function

很多文章说，这几个名词的含义是一样的。但是也有文章说，Loss Function和Cost Function不是一回事，例如这篇文章。但通常认为，这二者是一回事。我觉得嘛，大家就按通常的概念来接受就好了。
按WiKi的定义：

In mathematical optimization, statistics, decision theory and machine learning, a loss function or cost function is a function that maps an event or values of one or more variables onto a real number intuitively representing some "cost" associated with the event. An optimization problem seeks to minimize a loss function.

以及：

The loss function quantifies the amount by which the prediction deviates from the actual values.

我们可以知道，损失函数用于衡量预测值与实际值的偏离程度，如果预测是完全精确的，则损失函数值为0；如果损失函数值不为0，则其表示的是预测的错误有多糟糕。使得损失函数值最小的那些待求参数值，就是“最优”的参数值。
文章来源：http://www.codelast.com/
所以现在问题来了，损失函数的表达式又是什么？
在探讨损失函数的表达式之前，我们先来看一下损失函数有哪些种类。
损失函数有很多种，例如下面几个：
（1）0-1损失函数：可用于分类问题，即该函数用于衡量分类错误的数量，但由于此损失函数是非凸（non-convex）的，因此在做最优化计算时，难以求解，所以，正因为如此，0-1损失函数不是那么“实用”（如果这句话有误，请指正）。
（2）平方损失函数（Square Loss）：常用于线性回归（Linear Regression）。
（3）对数损失（Log Loss）函数：常用于其模型输出每一类概率的分类器（classifier），例如逻辑回归。
（4）Hinge损失函数：常用于SVM（Support Vector Machine，支持向量机，一种机器学习算法）。中文名叫“合页损失函数”，因为hinge有“合页”之意。这个翻译虽然直白，但是你会发现，99％的文章都不会用它的中文名来称呼它，而是用“Hinge损失”之类的说法。

这些都是人们的经验总结，当然，说每一种损失函数常用于什么机器学习算法，也都是有数学依据的。但是在这里，我们讲的是Logistic Regression，所以只看对数损失函数。对数损失函数通常用于衡量分类器（classifier）的精度，这里的“分类器”也就是指机器学习的模型，它对每一个类别输出一个概率值。从前面的文章中，我们已经知道了，逻辑回归就是这样一种分类器，所以才用对数损失函数来衡量其精度。
有时候，对数损失函数（Log Loss）也被叫作交叉熵损失函数（Cross-entropy Loss）。交叉熵这个名字比较拗口，在信息理论中，用于衡量某种事件的“不可预测性”，而=事件的真实分布+不可预测性，所以交叉熵可以用于度量两个概率分布（真实分布&预测分布）之间的差异性，即：交叉熵损失函数（对数损失函数）可以衡量一个模型对真实值带来的额外噪音，通过最小化交叉熵损失函数（对数损失函数），我们就可以最大化分类器（模型）的精度。
上面这一大段话试图用简单的描述让你相信，为什么要用Log Loss来衡量Logistic Regression的误差，但是没有给出证明。有人可能会说，为什么不能用其他的方法来衡量，例如用平方损失函数（Square Loss）。事实上，这是有数学依据的——它会导致损失函数是一个关于参数向量 $\theta$ 的凸函数，而用对数损失函数就没有这种问题。凸函数的性质为我们后面求解参数向量 $\theta$ 提供了极大便利，非凸函数有很多局部最优解，不利于求解 $\theta$ 的计算过程。
文章来源：http://www.codelast.com/
到这里为止，我们还是没有提到损失函数的数学表达式，但是如果要计算损失函数的值，我们是回避不了的，必须要知道。所以，这里用 L 来表示损失函数（取Loss之意），则对数损失函数的表达式为：

其中， ${{y_i}}$ 是第i个真实值（ ${y_i} \in \{ 0,1\}$ ）， ${{{\hat y}_i}}$ 是第i个预测值。
这个对数损失函数的表达式中并没有出现我们要求解的参数 $\theta$ ，所以我们把 $\hat y = f(X) = \frac{1}{{1 + {e^{ - {\theta ^T}X}}}}$ 代到（2）式中去：
$L = - \frac{1}{N}\sum\limits_{i = 1}^n {\left[ {{y_i}\log \left( {\frac{1}{{1 + {e^{ - {\theta ^T}{X_i}}}}}} \right) + (1 - {y_i})\log \left( {1 - \frac{1}{{1 + {e^{ - {\theta ^T}{X_i}}}}}} \right)} \right]}$
再来仔细看一下这个式子：N 为数据集的条数（有多少组 $(X,y)$ ，N就是多少），已知； ${{y_i}}$ 是真实值，已知； ${{X_i}}$ 是输入的向量，也已知。所以整个式子里只有 $\theta$ 是未知的，可以记为 $L(\theta )$ ，称之为：
$L(\theta ) = - \frac{1}{N}\sum\limits_{i = 1}^n {\left[ {{y_i}\log \left( {\frac{1}{{1 + {e^{ - {\theta ^T}{X_i}}}}}} \right) + (1 - {y_i})\log \left( {1 - \frac{1}{{1 + {e^{ - {\theta ^T}{X_i}}}}}} \right)} \right]}$
因此，我们只要找到一个参数向量 $\theta$ ，能使得此式的值最小，那么这个参数向量 $\theta$ 就是“最优”的参数向量。
求得了这个最优的 $\theta$ 之后，把它代入式（1），则对任一个未知的 $X$ ，我们都可以计算出 $f(X)$ 值，然后再根据一个阈值把它调整到 0 或 1，就得到了这个 $X$ 所属的分类，这样，我们就完成了一次“预测”的过程。
文章来源：http://www.codelast.com/

求解方法

所以现在问题来了，这个“最优”的参数向量

$\theta$ 怎么求解？
在大的方向上，你可以选择不使用搜索方向的算法（例如信赖域算法），也可以选择众多使用搜索方向的算法（例如梯度下降法）。
在是否计算目标函数的导数这个方面，你可以使用不用求目标函数导数的算法（例如Powell共轭方向集方法），也可以使用要求目标函数导数的算法（例如梯度下降法）。由于某些目标函数形式特别复杂，计算其导数特别麻烦，所以在这种时候，不用计算导数的算法可能大有帮助。

求解的过程就是一个最优化的过程，本文无法用一两句话描述清楚，请大家移步链接进行阅读。

事实上，在现在各种机器学习library百花齐放的今天，我们基本上不需要自己编写这些算法的具体实现，只需要调用它们即可。例如，通过Spark的Machine Learning Library (MLlib)，我们可以直接使用Stochastic gradient descent (SGD)，Limited-memory BFGS (L-BFGS)等实现。但是对这背后的原理有所了解，对工作学习是有帮助的。
文章来源：https://www.codelast.com/
➤➤ 版权声明 ➤➤
转载需注明出处：codelast.com
感谢关注我的微信公众号（微信扫一扫）：

machine learning – 编码无悔 / Intent & Focused

[原创]Machine Learning/机器学习 文章合集

[原创] 在树莓派上用TensorFlow玩深度学习(Deep Learning)

[原创] 用人话解释机器学习中的Logistic Regression（逻辑回归）

[原创]Machine Learning/机器学习文章合集