Math – 编码无悔 / Intent & Focused

[原创] 推荐一款编写数学公式的国产神器：AxMath，可与LATEX双向转换

learnhard — Sun, 25 Oct 2020 00:31:32 +0000

我一直都很佩服那些可以直接用LATEX语法打出各种复杂数学公式的人，反正我是记不住，而且也真的不想去记LATEX语法。
比如这个公式：

有的人能直接用LATEX手写出来：
\left( \sum_{i=1}^n{a_ib_i} \right) ^2\leqslant \left( \sum_{i=1}^n{a_{i}^{2}} \right) \left( \sum_{i=1}^n{b_{i}^{2}} \right) , a_i,b_i\in \mathbb{R}
这还算简单的了，更复杂的公式大神们都可以直接手写LATEX。
就问你服不服。
在下自愧脑容量不足。
所以当我要输入数学公式的时候，MathType这个功能强大的可视化数学公式编辑器就是我认为最方便易用的软件。

MathType的方便之处
MathType可以直接在复制图形界面的公式的时候，就把公式自动转换成LATEX语法再复制到内存里，粘贴的时候直接粘贴出来LATEX。比如我的网站里面的数学公式，在后台的文字编辑界面里大部分都是LATEX，但它们并不是我用手输的，而是用软件转换成LATEX再粘贴上来的（参考这个链接）。

MathType的缺点
但它有个缺点就是：贵。正版的单用户授权要300～400元。这个价格对大多数人来说都是要割肉的。
MathType官方的雷人开发效率
而且当前最新版的MathType 7在当前最新版的MacOS Catalina系统上无法运行（官方通告在此）。官方说会在2020年发布新版MathType解决此问题，一个导致产品完全无法使用的P0级问题出现那么久了，开发商还没有解决问题，其效率之低，令人侧目。仗着自己是世界范围内同类软件的老大，可以无视用户对吧？

MathType有什么替代软件吗？
首先是你能搜到很多“网页版”的数学公式编辑器，但我得说，我也用过很多个，一个真●能打的都没有，它们比MathType用起来麻烦多了，而且功能弱。

直到我遇到了AxMath，一款国产的“仿MathType”软件(但在很多方面已经超越了MathType)，我才知道原来这种国产软件也可以做得这么精良，而且单用户单机正版授权才30多块钱，童叟无欺，一顿饭的钱就能买这么强大的正版软件，你买不了吃亏买不了上当！

如果不买正版授权也是可以试用的，不过不能复制粘贴你输入的公式。
文章来源：https://www.codelast.com/
AxMath的局限性
只支持Windows系统（不像MathType有Mac版的）。不过这也还好，如果电脑是Mac/Linux的话，大不了在Windows虚拟机里运行AxMath，或者用CrossOver跑AxMath（亲测可用）。

AxMath的华丽功能
当你第一眼看到AxMath界面的时候，一定会被它的华丽外观给迷到，简直比MathType高级到不知道到哪里去了！

看看它支持输入的数学符号有多少种，简直多到像满天星。
官网上的那些强大功能介绍我就不粘贴过来了，我只说几个我肤浅使用了之后感觉特别好的地方。
文章来源：https://www.codelast.com/
可以自定义复制出来的LATEX的起始、结束符号
举个例子。
在MatyType里，复制一个数学公式 $y=ax+b$ ，再粘贴到任意文本编辑器里，得到的内容如下：
\ [y=ax+b\ ]
开头、结尾的 \ [ 和 \ ] 是不能在MathType中自定义的。当我在网站后台编辑器里用LATEX写数学公式时，这两个开头、结尾的符号要人工修改成 \ ( 和 \ )（→我特意在这些标成红色的符号之间都多加了一个空格以避免它们显示为数学公式），否则就会被LaTeX for WordPress插件解释成“换行居中”的式样，从而导致文章排版有问题，我在这篇文章里已经做了详细的解释。
每次在MathType里复制公式时，都要做这个重复的人工活，心累。
AxMath就没有这种问题，因为它可以设置“语法定界符”，也就是上面说的LATEX开头、结尾的符号。设置成 \ ( 和 \ ) 就解决问题啦！

文章来源：https://www.codelast.com/
没有MathType经常“多生成一个空格”的问题
举个例子。
在MathType中用图形界面输入以下公式：

复制，粘贴到文本编辑器中，变成了：
\ [{V_\pi }(s) = {E_{{s^{(1)}}, \cdots }}\left( {\sum\limits_{t = 0}^\infty {{\gamma ^t}R({s^{(t)}},\pi ({s^{(t)}}),{s^{(t + 1)}})\left| {{s^{(0)}} = s;\pi } \right.} } \right) \ ]
注意：为了让上面的LATEX显示为纯文本，而不是被我网站里的LaTeX for WordPress插件渲染成数学公式展现出来，我特意在开头的 \ 符号后面、以及结尾的 ] 符号前面分别都加了一个空格（实际上复制出来的LATEX是没有这两个空格的）。
这个LATEX被我网站里的LaTeX for WordPress插件渲染成了这样：

注意看中间有一个奇怪的问号，是个什么鬼？
这就是MathType的一个缺陷了（不知道算不算bug）。原因是在 $\gamma$ 字母的前面，MathType生成了两个空格（ infty {{\gamma ），而不是正确的一个空格。
注意看这个小细节。在我的使用过程中，MathType经常犯这样的错误，导致我不得不对复制出来的LATEX做人工修正，很烦很烦。
而AxMath就没有这个问题。

结语
AxMath，你值得拥有！

文章来源：https://www.codelast.com/
➤➤ 版权声明 ➤➤
转载需注明出处：codelast.com
感谢关注我的微信公众号（微信扫一扫）：

[原创] 重要性采样／Importance Sampling

learnhard — Thu, 11 Jul 2019 12:17:07 +0000

查看本系列文章合集，请点击这里。

在前面的文章中，我们看到，随机采样是一个蒙特卡罗方法中很关键的步骤。而采样是需要技巧的，单纯地增加采样次数太没有效率了，比如说，如果随机采样一亿次，你可以把结果计算得特别精确，但是采样一亿次需要的时间非常长，长得远远超过了我们能接受的范围，这又有什么意义呢？
人们发现，有一些方法可以让随机采的样本“特别好”。那么什么算“特别好”呢？比如说，本来使用没有任何原则的采样方法，需要采样1万个点，才能让计算出来的结果很接近真实值；现在使用一个“特别好”的采样方法，可以让我们只需要采样100个点，就可以让计算出来的结果很接近真实值了，这样就极大地减少了计算量。

而重要性采样（Importance Sampling），就是人们发现的、可以实现这个目的手段之一。

定义

重要性采样（Importance Sampling）是统计学中估计某一分布性质时使用的一种方法。该方法从与原分布不同的另一个分布中采样，而对原先分布的性质进行估计。

乍一看，这句话可能有点抽象，别急，往后看你就理解了。

实例——蒙特卡罗平均值法计算定积分

在之前的文章中，我们已经见识过了用蒙特卡罗投点法计算定积分的过程，这里有另一个叫作“平均值法”的方法，由于它也是随机化的算法，因此，它也属于一种蒙特卡罗方法。
文章来源：https://www.codelast.com/
我们来看看来自scratchapixel.com的一幅图：

这幅图表明了什么意思呢？我们知道，计算[a,b]内的定积分就是求曲线 f(x)、直线 x=a,x=b以及x轴围成的形状的面积，因此，如果我们在曲线上随机地选取N个点，计算如图所示的粉红色长方形面积之和，再求个平均，其实就得到了定积分的近似值。点的数量取得越多，这个平均值就越逼近定积分的真实值。
用公式写出来就是：
$\frac{1}{N}\left[ {(b - a) \times f({X_1}) + (b - a) \times f({X_2}) + \cdots + (b - a) \times f({X_N})} \right] = \frac{{b - a}}{N}\sum\limits_{i = 1}^N {f({X_i})}$
文章来源：https://www.codelast.com/
现在来看一下蒙特卡罗积分的表达式：
${F^N} = \frac{1}{N}\sum\limits_{i = 1}^N {\frac{{f({X_i})}}{{p({X_i})}}}$
这个式子没有积分符号 $\int {}$ ，但是它却叫做“积分”公式，这是因为这个式子求的是积分的近似值——当N越大的时候，计算出的值就越接近定积分的真实值。
在公式中，有一个奇怪的东西，就是 ${p({X_i})}$ ，它表示 ${{X_i}}$ 这个点，在某个分布下取 ${{X_i}}$ 这个值的概率。那么这个分布是什么呢？比如说，它能不能是简单的均匀分布？后面我们会看到，这个分布是我们自己选取的。
既然是要随机采样N个点，那么是不是随便用什么样的策略去采样，都可以达到同样的效果呢？这里用一幅图来说明，采样也是要讲究策略的，否则效果会很差：

由于定积分值就是曲线下的面积，显然，如果我们采样的点恰巧大部分处于圆圈内，那么这些点下的面积之和必然比较小，此时，我们按前面所说的计算矩形面积的方法算得的积分值，是远远不能反映积分的真实值的。也就是说，圆圈处的点，对积分值的贡献小，靠近 $x = a$ 处的曲线上的点，对积分值的贡献大。
所以，在实际采样的时候，靠近圆圈处的点应该少采一些，非圆圈处的点应该多采一些。
这就是重要性采样（Importance Sampling）的概念由来了——采样要按“重要性”来进行，不应该“平等对待”。
如果采样恰到好处的话，可能只需要进行很少的采样（计算若干个点的函数值），就可以求出误差很小的积分值。

参考文献

► 维基百科：重要性采样
► scratchapixel.com：Monte Carlo Methods in Practice

文章来源：https://www.codelast.com/
➤➤ 版权声明 ➤➤
转载需注明出处：codelast.com
感谢关注我的微信公众号（微信扫一扫）：

[原创] 蒙特卡罗算法对比拉斯维加斯算法

learnhard — Thu, 11 Jul 2019 12:15:53 +0000

查看本系列文章合集，请点击这里。

区别

讲到这里，稍微提一下，随机算法可以分为两类：蒙特卡洛算法 & 拉斯维加斯算法。
对蒙特卡洛算法来说，采样越多，越近似最优解。
对拉斯维加斯算法来说，它永远给出正确解的随机化算法，总是给出正确结果，或是返回失败。

在固定的计算资源下，蒙特卡洛一定可以得到一个解，但拉斯维加斯不一定。
文章来源：https://www.codelast.com/

拉斯维加斯算法实例

这里有一个很无趣的拉斯维加斯算法的例子：有10把钥匙，每次随机地取一把钥匙来开门，直到把门打开。如果只给你5次尝试的机会（在固定的计算资源下），那么可能能打开门（给出正确结果），也可能无法打开门（返回失败）。

当然，这个例子可能不能拿来套在蒙特卡罗算法身上，但这并不妨碍我们理解拉斯维加斯算法。

参考文献

► 维基百科：拉斯维加斯算法

文章来源：https://www.codelast.com/
➤➤ 版权声明 ➤➤
转载需注明出处：codelast.com
感谢关注我的微信公众号（微信扫一扫）：

[原创] 蒙特卡罗方法的实例2：计算定积分

learnhard — Thu, 11 Jul 2019 12:14:19 +0000

查看本系列文章合集，请点击这里。

为了对蒙特卡罗方法有一个直观的印象，本文再举一个实例（计算定积分），以说明蒙特卡罗方法的用途。

什么是定积分

对于一个给定的正实值函数 $f(x)$ ，它在一个实数区间 [a,b]上的定积分 $\int_a^b {f(x)dx}$ 可以理解为在 OXY 坐标平面上，由曲线 (x,f(x))、直线 x=a,x=b以及x轴围成的曲边梯形的面积值。

如下图所示：

文章来源：https://www.codelast.com/

非蒙特卡罗方法

其中一个计算定积分的方法就是用上面定积分的定义来求它：把面积均分成N个小矩形/梯形，求矩形/梯形面积之和。至于要分到多细才能良好地逼近定积分的真实值，我就不知道是否有什么理论上的说法了。

蒙特卡罗方法

用蒙特卡罗方法来计算定积分，又分成好几种方法——毕竟，蒙特卡罗方法是一类方法的统称，而不是指一种特定的方法。其中一种求定积分的蒙特卡罗方法，可以称之为。和之前的文章中计算圆周率的做法类似，我们这里也用一个实际的函数 $y = {x^2}$ 来说明问题：

文章来源：https://www.codelast.com/
假设要计算函数在在[0, 1]区间的积分，也就是求红色部分的面积。
然后，在1x1的正方形里生成大量随机点（m个），计算出在红色区域内的点的个数n——判断条件： $y < {x^2}$
最后，n/m 即为红色部分的面积，也就是所求的积分值。
投点法只是其中一种计算定积分的蒙特卡罗方法，当然也是一种很简单的蒙特卡罗方法，另外还有更麻烦的平均值法求定积分——可以利用特殊的采样技巧来提高计算效率，在后面的文章中会讲到。
在后面的文章中，还会解释采样和蒙特卡罗方法有什么关系，先不要急。

参考文献

► 维基百科：积分
► 蒙特卡罗方法入门

文章来源：https://www.codelast.com/
➤➤ 版权声明 ➤➤
转载需注明出处：codelast.com
感谢关注我的微信公众号（微信扫一扫）：

[原创] 蒙特卡罗方法的定义、历史以及存在意义

learnhard — Thu, 11 Jul 2019 12:06:23 +0000

查看本系列文章合集，请点击这里。

定义

来自维基百科：

蒙特卡罗（洛）方法（Monte Carlo method），也称统计模拟方法，是1940年代中期由于科学技术的发展和电子计算机的发明，而提出的一种以概率统计理论为指导的数值计算方法。是指使用随机数来解决很多计算问题的方法。

也就是说，蒙特卡罗方法并不是指一种特定的算法，而是一类算法的总称，这种算法主要利用了“随机”来实现。

历史

说到蒙特卡罗，这个名字是不是似曾相识？其实，它是摩纳哥大公国的一座城市，以蒙特卡洛大赌场闻名全球，始建于1858年。

(蒙特卡罗大赌场)

文章来源：https://www.codelast.com/
摩纳哥大公国是一个位于欧洲的城邦国家，它也是世界上面积第二小的国家。
这个国家比较神奇的一点是，本地的摩纳哥人在他们自己的国家是“少数派”——人口最多的是法国人，占32%，本地的摩纳哥人只占19%。
摩纳哥还有很多与众不同的特点：不需要缴纳个人收入所得税，它是世界上最富裕最文明的国家（之一？），全世界很多富人都生活在这里。
文章来源：https://www.codelast.com/
回到主题，蒙特卡罗方法和摩纳哥的蒙特卡罗这座城市有什么关系？
说到这个，就不得不提蒙特卡罗方法的发明人——冯·诺伊曼、斯塔尼斯拉夫·乌拉姆（数学家）、尼古拉斯·梅特罗波利斯（物理学家），一般认为是这3人在194x年发明了蒙特卡罗方法。其中，乌拉姆的叔叔经常在蒙特卡洛赌场输钱，而蒙特卡洛方法正是以概率为基础的方法，因此得名。

意义

蒙特卡罗方法的现实意义在于，很多问题计算量太大，难以遍历所有可能性来求解，通过采样，我们可以在短时间内求得近似解。

参考文献

► 维基百科：蒙特卡罗方法
► 维基百科：摩纳哥

文章来源：https://www.codelast.com/
➤➤ 版权声明 ➤➤
转载需注明出处：codelast.com
感谢关注我的微信公众号（微信扫一扫）：

[原创] 用人话解释蒙特卡罗方法/Monte Carlo method(文章合集)

learnhard — Thu, 11 Jul 2019 12:03:56 +0000

蒙特卡罗(洛)方法（Monte Carlo method），也称统计模拟方法，是1940年代中期由于科学技术的发展和电子计算机的发明，而提出的一种以概率统计理论为指导的数值计算方法。是指使用随机数来解决很多计算问题的方法。

下面的系列文章是《Deep Learning Book》一书第17章的部分肤浅读书笔记。由于本人理论水平有限，我认为满是公式、基本没有实例的《Deep Learning Book》第17章“很难看”、不利于学习。因此，我根据第17章的章节结构，自己去查阅了一些其他资料，找到了很多实例来写成了这些文章，我认为对初学者来说，它们可以让人更容易看懂。
不过，还是需要事先声明，这些文章中的某些陈述，是我个人的理解，本人水平有限，难免会有各种错误，请自行辨别。

➤ 重要性采样／Importance Sampling

➤ 马尔科夫链蒙特卡罗／Markov chain Monte Carlo, MCMC

➤ 马尔科夫链／Markov chain

➤ 马尔科夫链的平稳分布

➤ 马尔科夫链的细致平稳条件／Detailed Balance

➤ 马尔科夫链的接受率／Acceptance Probability

➤ 标准MCMC算法实现及其存在的问题

➤ Metropolis Hastings MCMC算法

➤ 吉布斯采样／Gibbs Sampling

文章来源：https://www.codelast.com/
➤➤ 版权声明 ➤➤
转载需注明出处：codelast.com
感谢关注我的微信公众号（微信扫一扫）：

[原创] 蒙特卡罗方法的实例1：计算圆周率

learnhard — Wed, 22 Nov 2017 16:02:18 +0000

查看本系列文章合集，请点击这里。

为了对蒙特卡罗方法有一个直观的印象，我们先举一个实例（计算圆周率 $\pi$ ），让从来没有接触过蒙特卡罗方法的人产生“原来这就是Monte Carlo”的感觉，以减少刚开始学习的困惑。

非蒙特卡罗方法

圆周率 $\pi$ 可以怎么计算？其中一个“常规”的方法就是利用 $\pi$ 的莱布尼茨公式：
$\frac{\pi }{4} = \sum\limits_{n = 0}^\infty {\frac{{{{\left( { - 1} \right)}^n}}}{{2n + 1}}} = 1 - \frac{1}{3} + \frac{1}{5} - \frac{1}{7} + \frac{1}{9} - \cdots$
不断增大 $n$ 的值，就能越来越逼近 $\frac{\pi }{4}$
当 $n$ 的最大值取30000时，可以计算得 $\pi = 3.141559320256462$

蒙特卡罗方法

相比之下，用蒙特卡罗方法来计算 $\pi$ ，可能就是一个比较“另类”的途径了。
假设圆外部有一个相切的正方形，如下图所示：

https://www.codelast.com/
设圆面积为C，正方形面积为S，则利用面积公式可以轻易算得： $\frac{C}{S} = \frac{{\pi {r^2}}}{{{{(2r)}^2}}} = \frac{\pi }{4}$
然后，我们在正方形内随机生成30000个点（当然可以生成更多，这里只是用30000举个例子），分别计算这些点与圆心的距离，距离
 https://www.codelast.com/
从面积之比可知：如果点是均匀分布的，则圆内的点的数量应该占所有点数量的 $\frac{\pi }{4}$ ，计算数量之比，再乘以4，即可得圆周率。
在某一次实验中，模拟30000个点， $\pi$ 的估算值与真实值相差0.07%
所以，这里正是巧妙地利用了“随机”这个技术，来计算了圆周率，这种方法就属于蒙特卡罗方法。

参考文献

► 维基百科： $\pi$ 的莱布尼茨公式
► 蒙特卡罗方法入门

文章来源：https://www.codelast.com/
➤➤ 版权声明 ➤➤
转载需注明出处：codelast.com
感谢关注我的微信公众号（微信扫一扫）：

[原创] 如何防止softmax函数上溢出(overflow)和下溢出(underflow)

learnhard — Sat, 11 Mar 2017 17:22:44 +0000

《Deep Learning》（Ian Goodfellow & Yoshua Bengio & Aaron Courville）第四章「数值计算」中，谈到了上溢出（overflow）和下溢出（underflow）对数值计算的影响，并以softmax函数和log softmax函数为例进行了讲解。这里我再详细地把它总结一下。

『1』什么是下溢出（underflow）和上溢出（overflow）
实数在计算机内用二进制表示，所以不是一个精确值，当数值过小的时候，被四舍五入为0，这就是下溢出。此时如果对这个数再做某些运算（例如除以它）就会出问题。
反之，当数值过大的时候，情况就变成了上溢出。

softmax函数是什么
softmax函数如下：
$f{(x)_i} = \frac{{{e^{{x_i}}}}}{{\sum\limits_{j = 1}^n {{e^{{x_j}}}} }},j = 1,2,...,n$
从公式上看含义不是特别清晰，所以借用知乎上的一幅图来说明（感谢原作者）：

这幅图极其清晰地表明了softmax函数是什么，一图胜千言。
文章来源：https://www.codelast.com/
计算softmax函数值的问题
通常情况下，计算softmax函数值不会出现什么问题，例如，当softmax函数表达式里的所有 x_i 都是一个“一般大小”的数值 c 时——也就是上图中， ${z_1} = {z_2} = {z_3} = c$ 时，那么，计算出来的函数值 ${y_1} = {y_2} = {y_3} = \frac{1}{3}$ 。
但是，当某些情况发生时，计算函数值就出问题了：

c 极其大，导致分子计算 ${e^c}$ 时上溢出
c 为负数，且 $\left| c \right|$ 很大，此时分母是一个极小的正数，有可能四舍五入为0，导致下溢出

文章来源：https://www.codelast.com/
如何解决
所以怎样规避这些问题呢？我们可以用同一个方法一口气解决俩：
令 $M = \max ({x_i}),i = 1,2, \cdots ,n$ ，即 M 为所有 ${x_i}$ 中最大的值，那么我们只需要把计算 $f{(x)_i}$ 的值，改为计算 $f({x_i} - M)$ 的值，就可以解决上溢出、下溢出的问题了，并且，计算结果理论上仍然和 $f{(x)_i}$ 保持一致。
https://www.codelast.com/
举个实例：还是以前面的图为例，本来我们计算 $f({z_2})$ ，是用“常规”方法来算的：
$\frac{{{e^{{z_2}}}}}{{{e^{{z_1}}} + {e^{{z_2}}} + {e^{{z_3}}}}} = \frac{{{e^1}}}{{{e^3} + {e^1} + {e^{ - 3}}}} = \frac{{2.7}}{{20 + 2.7 + 0.05}} \approx 0.12$
现在我们改成：
$\frac{{{e^{({z_2} - M)}}}}{{{e^{({z_1} - M)}} + {e^{({z_2} - M)}} + {e^{({z_3} - M)}}}} = \frac{{{e^{(1 - 3)}}}}{{{e^{(3 - 3)}} + {e^{(1 - 3)}} + {e^{( - 3 - 3)}}}} \approx 0.12$
其中， $M = 3$ 是 ${z_1},{z_2},{z_3}$ 中的最大值。
可见计算结果并未改变。
文章来源：https://www.codelast.com/
这是怎么做到的呢？通过简单的代数运算就可以参透其中的“秘密”：
$\frac{{{e^{{z_2}}}}}{{{e^{{z_1}}} + {e^{{z_2}}} + {e^{{z_3}}}}} = \frac{{\frac{{{e^{{z_2}}}}}{{{e^M}}}}}{{\frac{{{e^{{z_1}}} + {e^{{z_2}}} + {e^{{z_3}}}}}{{{e^M}}}}} = \frac{{\frac{{{e^{{z_2}}}}}{{{e^M}}}}}{{\frac{{{e^{{z_1}}}}}{{{e^M}}} + \frac{{{e^{{z_2}}}}}{{{e^M}}} + \frac{{{e^{{z_3}}}}}{{{e^M}}}}} = \frac{{{e^{\left( {{z_2} - M} \right)}}}}{{{e^{\left( {{z_1} - M} \right)}} + {e^{\left( {{z_2} - M} \right)}} + {e^{\left( {{z_3} - M} \right)}}}}$
通过这样的变换，对任何一个 x_i，减去M之后，e 的指数的最大值为0，所以不会发生上溢出；同时，分母中也至少会包含一个值为1的项，所以分母也不会下溢出（四舍五入为0）。
所以这个技巧没什么高级的技术含量。
文章来源：https://www.codelast.com/
延伸问题
看似已经结案了，但仍然有一个问题：如果softmax函数中的分子发生下溢出，也就是前面所说的 c 为负数，且 $\left| c \right|$ 很大，此时分母是一个极小的正数，有可能四舍五入为0的情况，此时，如果我们把softmax函数的计算结果再拿去计算 log，即 log softmax，其实就相当于计算 $\log (0)$ ，所以会得到 $- \infty$ ，但这实际上是错误的，因为它是由舍入误差造成的计算错误。
所以，有没有一个方法，可以把这个问题也解决掉呢？
答案还是采用和前面类似的策略来计算 log softmax 函数值：
$\log [f({x_i})] = \log \left( {\frac{{{e^{{x_i}}}}}{{{e^{{x_1}}} + {e^{{x_2}}} + \cdots {e^{{x_n}}}}}} \right) = \log \left( {\frac{{\frac{{{e^{{x_i}}}}}{{{e^M}}}}}{{\frac{{{e^{{x_1}}}}}{{{e^M}}} + \frac{{{e^{{x_2}}}}}{{{e^M}}} + \cdots \frac{{{e^{{x_n}}}}}{{{e^M}}}}}} \right) = \log \left( {\frac{{{e^{\left( {{x_i} - M} \right)}}}}{{\sum\limits_j^n {{e^{\left( {{x_j} - M} \right)}}} }}} \right) = \log \left( {{e^{\left( {{x_i} - M} \right)}}} \right) - \log \left( {\sum\limits_j^n {{e^{\left( {{x_j} - M} \right)}}} } \right) = \left( {{x_i} - M} \right) - \log \left( {\sum\limits_j^n {{e^{\left( {{x_j} - M} \right)}}} } \right)$
大家看到，在最后的表达式中，会产生下溢出的因素已经被消除掉了——求和项中，至少有一项的值为1，这使得log后面的值不会下溢出，也就不会发生计算 log(0) 的悲剧。
在很多数值计算的library中，都采用了此类方法来保持数值稳定。
文章来源：https://www.codelast.com/
➤➤ 版权声明 ➤➤
转载需注明出处：codelast.com
感谢关注我的微信公众号（微信扫一扫）：

[原创]Machine Learning/机器学习文章合集

learnhard — Sat, 21 Jan 2017 10:57:16 +0000

注：带有 ♬♬♬♬♬ 标志的是文章合集。

强化学习(Reinforcement Learning)文章合集 ♬♬♬♬♬

用人话解释机器学习中的Logistic Regression（逻辑回归）

如何防止softmax函数上溢出(overflow)和下溢出(underflow)

ELL（Embedded Learning Library，微软嵌入式学习库）文章合集 ♬♬♬♬♬

《Neural Networks and Deep Learning》读书笔记：最简单的识别MNIST的神经网络程序(1)

《Neural Networks and Deep Learning》读书笔记：最简单的识别MNIST的神经网络程序(2)

《Neural Networks and Deep Learning》读书笔记：反向传播的4个基本方程(1)

用人话解释蒙特卡罗方法/Monte Carlo method(文章合集) ♬♬♬♬♬

一个简单的TensorFlow-Serving例子

tf.tile() 用法举例(TensorFlow)

二维numpy数组保存到TFRecord并读取还原回来

如何打印出TensorFlow保存的checkpoint里的参数名

如何取出 tf.layers.dense 定义的全连接层的weight和bias参数值

PyTorch模型 .pt，.pth，.pkl 的区别

PyTorch模型的两种保存方法

PyTorch做inference/prediction的时候如何使用GPU

调戏了一番度娘"最先进"的PLATO-2预训练模型之后，我还是回到了和人类交谈...

《使用 fastText 做中文文本分类》文章合集♬♬♬♬♬

怎样确认当前正在运行的TensorFlow model-serving服务加载的是哪个.pb模型

文章来源：https://www.codelast.com/
➤➤ 版权声明 ➤➤
转载需注明出处：codelast.com
感谢关注我的微信公众号（微信扫一扫）：

[原创] 用人话解释机器学习中的Logistic Regression（逻辑回归）

learnhard — Fri, 19 Feb 2016 08:47:08 +0000

友情提示：如果觉得页面中的公式显示太小，可以放大页面查看（不会失真）。

Logistic Regression（或Logit Regression），即逻辑回归，简记为LR，是机器学习领域的一种极为常用的算法／方法／模型。
你能从网上搜到十万篇讲述Logistic Regression的文章，也不多我这一篇，但是，就像我写过的最优化系列文章一样，我仍然试图用“人话”来再解释一遍——可能不专业，但是容易看得懂。那些一上来就是几页数学公式什么的最讨厌了，不是吗？
所以这篇文章是写给完全没听说过Logistic Regression的人看的，我相信看完这篇文章，你差不多可以从无到有，把逻辑回归应用到实践中去。

Logistic Regression是一种分类算法。分类，也就是把一个群体（或问题，或数据）分为几个类别，例如，男/女/人妖；爱她的人/不爱她的人；今天会下雨/今天不会下雨。
Logistic Regression最常用于处理“二分类”问题，也就是说分类只有两个，像“爱她的人/不爱她的人”就是二分类，而“男/女/人妖”就不是二分类。当然，Logistic Regression也可以用于处理多分类问题，即所谓的“多分类逻辑回归”（Multiclass Logistic Regression），但本文并不涉及这个方面。
所以，说得简单点就是，给你一条数据，用Logistic Regression可以判断出这条数据应该被分到两个类别中的哪个中去。
文章来源：http://www.codelast.com/
Logistic Regression在现实世界中非常有用。例如，可以用它来判断一个用户是否会点击一个广告（会点击／不会点击），可以用Logistic Regression来判断两类人是否会相爱（会相爱／不会相爱），等等。

机器学习的主旨就是通过对历史数据的计算（即“学习”），得到一些未知参数的值，从而可以推断出新数据会有什么结论。例如一个非常简单的函数： $y = ax + b$ ，在已知几组 $(x,y)$ 历史数据的情况下：

(1, 5.5)
(1.5, 7)
(2, 6.5)

我们怎样能够预测一个未知的自变量 $x = 3$ 会对应什么样的因变量 $y$ 呢？也就是说， $x = 3$ 时 $y = ?$
显然我们的任务就是计算出两个未知参数 $a$ 和 $b$ 的值，有了这两个值，那么任意给定一个 $x$ ，我们都能通过函数 $y = ax + b$ 计算出 $y$ 的值了，这就是所谓的“预测”。
http://www.codelast.com/
Logistic Regression也是类似，我们有一个函数 $y = f(X)$ ，里面包含若干个未知参数 ${\theta _0},{\theta _1},{\theta _2}, \cdots ,{\theta _n}$ 。
由于现实世界是复杂的，因变量 $y$ 通常会跟很多因素（自变量 $x$ ）有关系，即 ${x_0},{x_1},{x_2}, \cdots ,{x_n}$ ，所以这里自变量是一个，这里用大写的 $X$ 来表示。同理，那一堆未知的参数也是一个向量，用一个字母 $\theta$ 来表示。
现在给我们一堆 $(x,y)$ 的历史数据，我们要想办法计算出所有未知参数的值，然后就可以拿来预测新的 $x$ 值所对应的 $y$ 值了。
但是这个函数是什么呢？如下：

其中， $\theta$ 是参数向量， $X$ 是自变量（向量）。
文章来源：http://www.codelast.com/
那么，这个略显奇怪的函数是怎么来的呢？
首先我们看 ${{\theta ^T}X}$ 这部分：这是参数向量与自变量（向量）的点积，这个式子想要表达的含义是：计算某个事件发生的可能性，可以把跟这个事件相关的所有特征加权求和。例如，要求今天下雨的可能性，可以把今天所有和下雨相关的概率加权求和，例如梅雨季节权重为9（每天都很可能下雨），有台风经过权重为6，等等，每一个因素都影响着“下雨的可能性”，即：
$s = \sum\limits_{i = 0}^n {{\theta _i}{x_i}} = {\theta _0}{x_0} + {\theta _1}{x_1} + \cdots + {\theta _n}{x_n} = {\theta ^T}X$
但是这个加权求和的结果是在 $( - \infty , + \infty )$ 范围内的，为了能表示预测的概率，我们希望把输出值限制在 $(0,1)$ 之间，而不是 $( - \infty , + \infty )$ 。所以，这时，逻辑函数就出场了。

文章来源：http://www.codelast.com/
通过这个WiKi页面你可以知道，其实所谓的逻辑函数，就是这样的一个函数：

$P(t) = \frac{1}{{1 + {e^{ - t}}}}$
这个函数是由 Pierre François Verhulst（皮埃尔·弗朗索瓦·韦吕勒）在1844～1845年的时候给它起的名字。而我们上面的函数(1)，就是这个形式。
逻辑函数的图像是这个样子的：

它的函数值刚好就是在(0,1)之间。
所以，我们通过逻辑函数，就可以计算出一个事件的概率了（(0,1)之间）。但是不要忘了，我们前面说要处理二分类问题，得到一个(0,1)之间的任意值并不能归到两个分类中的一个里去，所以还要把这个概率值“归类”。其实这里很简单，我们可以在

$f(X) > 0.5$ 的时候，把它归到类别1中，

$f(X) \le 0.5$ 的时候，把它归到类别2中就可以了（概率值的“分水岭”可以根据实际情况调整）。用数学公式来表达这段话的含义就是：

$y' = \left\{ {\begin{array}{*{20}{c}}{0,f(X) > 0.5}\\{1,f(X) \le 0.5}\end{array}} \right.$

在各种机器学习的文章中，你都会看到，它们给了逻辑函数一个常用的名字：Sigmoid函数。sigmoid，意为“S形的”，这正符合其函数图像特点，所以大家记住就行了。
http://www.codelast.com/
现在，我们已经有了函数，下一步任务就是求出函数表达式中的未知参数向量 $\theta$ 了。这个过程是机器学习中最为核心的计算步骤。
以前面讲过的函数 $y = ax + b$ 为例：
你会发现，当已知几组 $(x,y)$ 数据的情况下：

(1, 5.5)
(1.5, 7)
(2, 6.5)

你无论如何也不可能找到一对 $a$ 和 $b$ 的值，使得以上3组数据能精确地满足方程 $y = ax + b$ ，正如下面的图像所示：

这条直线如果要精确地通过其中的两个点，那么就不能通过第三个点。所以，最终求出来的 $a$ 和 $b$ 的值，并不是方程的解析解，而是“最优解”。
因此，问题在于，我们如何画一条直线，使得其是“最优”的？“最优”的评判标准是什么？
文章来源：http://www.codelast.com/
为了理解“最优”，我们需要先了解一些概念。

损失函数／Loss Function／代价函数／Cost Function

很多文章说，这几个名词的含义是一样的。但是也有文章说，Loss Function和Cost Function不是一回事，例如这篇文章。但通常认为，这二者是一回事。我觉得嘛，大家就按通常的概念来接受就好了。
按WiKi的定义：

In mathematical optimization, statistics, decision theory and machine learning, a loss function or cost function is a function that maps an event or values of one or more variables onto a real number intuitively representing some "cost" associated with the event. An optimization problem seeks to minimize a loss function.

以及：

The loss function quantifies the amount by which the prediction deviates from the actual values.

我们可以知道，损失函数用于衡量预测值与实际值的偏离程度，如果预测是完全精确的，则损失函数值为0；如果损失函数值不为0，则其表示的是预测的错误有多糟糕。使得损失函数值最小的那些待求参数值，就是“最优”的参数值。
文章来源：http://www.codelast.com/
所以现在问题来了，损失函数的表达式又是什么？
在探讨损失函数的表达式之前，我们先来看一下损失函数有哪些种类。
损失函数有很多种，例如下面几个：
（1）0-1损失函数：可用于分类问题，即该函数用于衡量分类错误的数量，但由于此损失函数是非凸（non-convex）的，因此在做最优化计算时，难以求解，所以，正因为如此，0-1损失函数不是那么“实用”（如果这句话有误，请指正）。
（2）平方损失函数（Square Loss）：常用于线性回归（Linear Regression）。
（3）对数损失（Log Loss）函数：常用于其模型输出每一类概率的分类器（classifier），例如逻辑回归。
（4）Hinge损失函数：常用于SVM（Support Vector Machine，支持向量机，一种机器学习算法）。中文名叫“合页损失函数”，因为hinge有“合页”之意。这个翻译虽然直白，但是你会发现，99％的文章都不会用它的中文名来称呼它，而是用“Hinge损失”之类的说法。

这些都是人们的经验总结，当然，说每一种损失函数常用于什么机器学习算法，也都是有数学依据的。但是在这里，我们讲的是Logistic Regression，所以只看对数损失函数。对数损失函数通常用于衡量分类器（classifier）的精度，这里的“分类器”也就是指机器学习的模型，它对每一个类别输出一个概率值。从前面的文章中，我们已经知道了，逻辑回归就是这样一种分类器，所以才用对数损失函数来衡量其精度。
有时候，对数损失函数（Log Loss）也被叫作交叉熵损失函数（Cross-entropy Loss）。交叉熵这个名字比较拗口，在信息理论中，用于衡量某种事件的“不可预测性”，而=事件的真实分布+不可预测性，所以交叉熵可以用于度量两个概率分布（真实分布&预测分布）之间的差异性，即：交叉熵损失函数（对数损失函数）可以衡量一个模型对真实值带来的额外噪音，通过最小化交叉熵损失函数（对数损失函数），我们就可以最大化分类器（模型）的精度。
上面这一大段话试图用简单的描述让你相信，为什么要用Log Loss来衡量Logistic Regression的误差，但是没有给出证明。有人可能会说，为什么不能用其他的方法来衡量，例如用平方损失函数（Square Loss）。事实上，这是有数学依据的——它会导致损失函数是一个关于参数向量 $\theta$ 的凸函数，而用对数损失函数就没有这种问题。凸函数的性质为我们后面求解参数向量 $\theta$ 提供了极大便利，非凸函数有很多局部最优解，不利于求解 $\theta$ 的计算过程。
文章来源：http://www.codelast.com/
到这里为止，我们还是没有提到损失函数的数学表达式，但是如果要计算损失函数的值，我们是回避不了的，必须要知道。所以，这里用 L 来表示损失函数（取Loss之意），则对数损失函数的表达式为：

其中， ${{y_i}}$ 是第i个真实值（ ${y_i} \in \{ 0,1\}$ ）， ${{{\hat y}_i}}$ 是第i个预测值。
这个对数损失函数的表达式中并没有出现我们要求解的参数 $\theta$ ，所以我们把 $\hat y = f(X) = \frac{1}{{1 + {e^{ - {\theta ^T}X}}}}$ 代到（2）式中去：
$L = - \frac{1}{N}\sum\limits_{i = 1}^n {\left[ {{y_i}\log \left( {\frac{1}{{1 + {e^{ - {\theta ^T}{X_i}}}}}} \right) + (1 - {y_i})\log \left( {1 - \frac{1}{{1 + {e^{ - {\theta ^T}{X_i}}}}}} \right)} \right]}$
再来仔细看一下这个式子：N 为数据集的条数（有多少组 $(X,y)$ ，N就是多少），已知； ${{y_i}}$ 是真实值，已知； ${{X_i}}$ 是输入的向量，也已知。所以整个式子里只有 $\theta$ 是未知的，可以记为 $L(\theta )$ ，称之为：
$L(\theta ) = - \frac{1}{N}\sum\limits_{i = 1}^n {\left[ {{y_i}\log \left( {\frac{1}{{1 + {e^{ - {\theta ^T}{X_i}}}}}} \right) + (1 - {y_i})\log \left( {1 - \frac{1}{{1 + {e^{ - {\theta ^T}{X_i}}}}}} \right)} \right]}$
因此，我们只要找到一个参数向量 $\theta$ ，能使得此式的值最小，那么这个参数向量 $\theta$ 就是“最优”的参数向量。
求得了这个最优的 $\theta$ 之后，把它代入式（1），则对任一个未知的 $X$ ，我们都可以计算出 $f(X)$ 值，然后再根据一个阈值把它调整到 0 或 1，就得到了这个 $X$ 所属的分类，这样，我们就完成了一次“预测”的过程。
文章来源：http://www.codelast.com/

求解方法

所以现在问题来了，这个“最优”的参数向量

$\theta$ 怎么求解？
在大的方向上，你可以选择不使用搜索方向的算法（例如信赖域算法），也可以选择众多使用搜索方向的算法（例如梯度下降法）。
在是否计算目标函数的导数这个方面，你可以使用不用求目标函数导数的算法（例如Powell共轭方向集方法），也可以使用要求目标函数导数的算法（例如梯度下降法）。由于某些目标函数形式特别复杂，计算其导数特别麻烦，所以在这种时候，不用计算导数的算法可能大有帮助。

求解的过程就是一个最优化的过程，本文无法用一两句话描述清楚，请大家移步链接进行阅读。

事实上，在现在各种机器学习library百花齐放的今天，我们基本上不需要自己编写这些算法的具体实现，只需要调用它们即可。例如，通过Spark的Machine Learning Library (MLlib)，我们可以直接使用Stochastic gradient descent (SGD)，Limited-memory BFGS (L-BFGS)等实现。但是对这背后的原理有所了解，对工作学习是有帮助的。
文章来源：https://www.codelast.com/
➤➤ 版权声明 ➤➤
转载需注明出处：codelast.com
感谢关注我的微信公众号（微信扫一扫）：

[原创] 再谈共轭方向法/Conjugate Direction Method In Optimization

learnhard — Sat, 26 Apr 2014 16:13:12 +0000

共轭方向法是介于最速下降法和牛顿法之间的一种存在——它的收敛速度（二阶收敛）比最速下降法（线性收敛）快，同时它的计算量又比牛顿法要小，因此它的存在是有意义的。

需要注意，共轭方向法可以不使用目标函数的一阶导数信息（当然也可以使用）。所以，如果目标函数的一阶导数不容易求的话，共轭方向法可能就可以派上用场了。
共轭方向法的显著特征就是：两次搜索方向之间是有关联的，这种关联就是“共轭”。
文章来源：http://www.codelast.com/
向量共轭
先解释一下向量共轭的含义，你就明白共轭方向法的两次搜索方向之间的“共轭”是怎么回事了。
设 $G$ 为对称正定矩阵，若 $d_m^TG{d_n} = 0,\;\;m \ne n$ ，则称 ${d_m}$ 和 ${d_n}$ 为“G共轭”，共轭方向是“互不相关”的方向。

特性
当目标函数是二次函数 $f(x) = \frac{1}{2}{x^T}Gx + {b^T}x + c$ 时，共轭方向法最多经过N步（N为向量维数）迭代，就可以到达极小值点——这种特性叫作二次收敛性（Quadratic Convergence）。
假设沿着一系列的共轭方向做迭代（寻找极小值点），这些共轭方向组成的集合叫作共轭方向集，则沿共轭方向集的每个方向顺序做line search的时候，在每个方向上都不需要做重复搜索——在任何一个方向上的移动，都不会影响到在另一个方向上已经找到的极小值。
上面这段描述是什么意思呢？我们先不讨论这些共轭方向是怎么计算出来的，拿一个在水平面上走路的例子来做比喻：你在水平方向A上走了10米，然后再沿着与水平方向垂直的另一个方向B上又走了10米，那么，你在方向A上走动的时候，在方向B上的坐标是不变的；你在方向B上走动的时候，在方向A上的坐标也是不变的。因此，把方向A和方向B看作两个共轭方向，那么，你在这两个共轭方向中的任何一个方向上移动，都不会影响到另一个方向上已经走到的坐标（把它想像成在这个方向上的极小值）。
文章来源：http://www.codelast.com/
但是世界哪有那么美好？目标函数不是二次函数的时候多得去了！这个时候，共轭方向法不就废了吗？非也非也。
理论与实践证明，将二次收敛算法用于非二次的目标函数，也有很好的效果。但是，这个时候，就不能保证N步迭代到达极小值点了。大家需要记住的是，很多函数都可以用二次函数很好地近似，这种近似在工程上是很重要。
有人一定会问，哪些函数可以用二次函数很好地近似呢？请原谅我没在书中看到这个总结，你只能自己去挖掘了。

『3』理论基础
共轭方向法有一个重要的理论基础，它是一个神奇的定理，有了它，可以推导出很多结论（共轭梯度法的理论推导就依赖于此）。
这里只把结论写上来，证明较长，不是本文关注的所以就不写了：
在精确line search的情况下，当前迭代点的梯度 $g$ 与前面所有的搜索方向 $d$ 直交：
$g_{i + 1}^T{d_j} = 0,\;\;j = 0,1, \cdots ,i$
这个结论在很多专业书中，都用了晦涩的描述来显示出教科书般的“高端、大气、上档次”，我看完之后只有一个感觉：看你们这些牛人写的书压力好大啊！
上面的红字，是我认为可以精简成“人话”之后的描述，也许它不严谨，也许它有漏洞，但是它大概说的就是这么回事，简单不就是美吗？
下面稍微解释一下定理中的一些概念：

● 为什么

$g_{i + 1}^T{d_j} = 0$ 表明两个向量“直交”？从两个向量的夹角的数学定义：

我们可知，

$g_{i + 1}^T{d_j}$ 为0时，整个式子为零，从而

$\theta = \frac{\pi }{2}$ ，也就是说两个向量的夹角是

$\frac{\pi }{2}$ ，所以它们当然是“直交”的。

在

$g_{i + 1}^T{d_j} = 0$ 这个式子中，当

$g$ 的下标是

${i + 1}$ 时，

$d$ 的下标可以是

$0,1,\cdots ,i$ ，例如，

$g_3^T{d_0} = 0,\;\;g_3^T{d_1} = 0,\;\;g_3^T{d_2} = 0$ ，这表明，当前迭代点的梯度

${g_3}$ 与前面所有的搜索方向（

${d_0},{d_1},{d_2}$ ）直交。

文章来源：http://www.codelast.com/
现在我把某书中一段和上面的理论等价的描述摘录下来，让大家看看它描述得是不是很晦涩：
共轭方向法在迭代过程中的每一个迭代点 ${x_{i + 1}}$ 都是目标函数 $f(x)$ 在 ${x_0}$ 和方向 ${d_0},{d_1}, \cdots ,{d_i}$ 所张成的线性流形

中的极小点。

其实这个晦涩的描述，是line search基础定理——梯度与方向的点积为零——的另一种表述。例如，我们拿一个特例来说：

迭代点

${x_2}$ （此时

$i = 1$ ）是目标函数

$f(x)$ 和方向

${d_0},{d_1}$ 所张成的线性流形

$\left\{ {\left. x \right|x = {x_0} + {\alpha _0}{d_0} + {\alpha _1}{d_1}} \right\}$ 的极小值点。

而

${x_0} + {\alpha _0}{d_0} + {\alpha _1}{d_1} = {x_1} + {\alpha _1}{d_1} = {x_2}$ ，所以这就说明了

${x_1}$ 是在

${{d_0}}$ 方向上line search得到的极小值点，

${x_2}$ 是在

${{d_1}}$ 方向上line search得到的极小值点。所以由基础定理可知，当前迭代点的梯度与前面所有方向的点积为零。

自己慢慢体会...
文章来源：http://www.codelast.com/
基本流程
下面来看看，共轭方向法在迭代过程中是怎么做的。
假设迭代已经进行到了第 $k$ 步，那么，下一步怎么走？

确定一个搜索方向要满足： ${g_{k + 1}}^T{d_{k + 1}} < 0$ ——这是为了满足目标函数值下降的条件（下降是最优化的目标），并且 $d_{k + 1}^TG{d_i} = 0,\;\;i = 1,2, \cdots ,k$ ——这是为了满足搜索方向之间的“共轭”条件。
检验迭代终止条件，若未终止，则用line search求 $f({x_k} + {\alpha _k}{d_k}) = \mathop {\min }\limits_{\alpha \ge 0} f({x_k} + \alpha {d_k})$ ——在每一个搜索方向上，我们都要找到极小值点。
${x_{k + 1}} = {x_k} + {\alpha _k}{d_k}$ ，继续迭代

大家注意到，上面说确定一个搜索方向，要满足“共轭”的条件，问题是，共轭方向是如何获取的？光有愿望可不行啊。
文章来源：http://www.codelast.com/
『5』创造共轭方向
这里的关键是，如何构造出一个方向的集合，其N个方向线性无关、两两共轭？
有一个经典的方案就是Powell共轭方向集方法。
Powell是谁？

M.J.D. POWELL，剑桥大学教授（已故），世界著名的最优化专家。他是袁亚湘的导师（袁亚湘，中国科学院数学与系统科学研究院研究员、博士生导师，美国数学学会首届会士（2012年），中国科学院院士）。

Powell方法是一种不需要求目标函数导数的方法（zero-order method）。有一篇英文文章里说，如果你只需要知道一种zero-order method如何编程实现的话，那么一定是选Powell方法，可见Powell方法是有其重要地位的。
关于Powell方法，可以参考一下这篇文章，本文不详述。
文章来源：http://www.codelast.com/
『6』Powell方法的问题及改进
Powell方法产生的共轭方向集可能会变得线性相关，这会导致最终我们求得的，是N维空间的一个子空间内的极小值，而不是整体的极小值，所以，人们对Powell方法研究出了一些改进方案，例如：

N轮迭代后，方向集重置为基向量；
Brent（就是Brent's method的作者）提出，N轮迭代后，可以将方向集重置为任意正交矩阵（见下面的说明）的列向量；
放弃目标函数下降最大的方向，用一些好的方向代替N个必须共轭的方向；
...

PS：什么是？
一个实数正交矩阵是方块矩阵Q，它的转置矩阵是它的逆矩阵： ${Q^T}Q = Q{Q^T} = E$ ，其中， $E$ 为单位矩阵：

文章来源：https://www.codelast.com/
➤➤ 版权声明 ➤➤
转载需注明出处：codelast.com
感谢关注我的微信公众号（微信扫一扫）：

[原创] 再谈牛顿法/Newton's Method In Optimization

learnhard — Sun, 06 Apr 2014 02:58:34 +0000

牛顿法是最优化领域的经典算法，它在寻优的过程中，使用了目标函数的二阶导数信息，具体说来就是：用迭代点的梯度和二阶导数对目标函数进行二次逼近，把二次函数的极小点作为新的迭代点，不断重复此过程，直到找到最优点。

『1』历史
话说，牛顿法为什么叫牛顿法？这个近乎“废话”的问题，谁又真正查过？
Wiki里是这样写的：牛顿法（Newton's method）是一种近似求解方程的方法，它使用函数f(x)的泰勒级数的前面几项来寻找方程f(x)=0的根。
它最初由艾萨克•牛顿在《流数法》（Method of Fluxions，1671年完成，在牛顿死后的1736年公开发表）。
按我的理解，起初牛顿法和最优化没什么关系（在那个年代应该还没有最优化这门学科分支），但是在最优化研究兴起后，人们把牛顿法的思想应用在最优化领域，于是也就叫它牛顿法了。

文章来源：http://www.codelast.com/

原理
下面我们就来推导一下牛顿法的实现。
目标函数 $f(x)$ 在点 ${x_k}$ 的泰勒展示式前三项为：
${q_k}(x) = {q_k}({x_k} + x - {x_k}) = f({x_k}) + g_k^T(x - {x_k}) + \frac{1}{2}{(x - {x_k})^T}{G_k}(x - {x_k}) + o(x - {x_k})$
其中， ${g_k}$ 是一阶导数（梯度）， ${G_k}$ 是二阶导数。当然，最后一项（高阶无穷小）我们依然是不考虑的。
http://www.codelast.com/
$x$ 为极小值点的一阶必要条件是：
$\nabla {q_k}(x) = 0 = {g_k} + {G_k}(x - {x_k})$
由此便可得到迭代公式： ${x_{k + 1}} = {x_k} - {G_k}^{ - 1}{g_k}$
在最优化line search的过程中，下一个点是由前一个点在一个方向d上移动得到的，因此，在牛顿法中，人们就顺其自然地称这个方向为“”，由上面的式子可知其等于： ${d_k} = - {G_k}^{ - 1}{g_k}$

『3』优缺点
优点：充分接近极小点时，牛顿法具有二阶收敛速度——挺好的，不是么。
缺点：
①牛顿法不是整体收敛的。
②每次迭代计算 ${G_k}$ （的逆矩阵），计算量偏大。
③线性方程组 ${d_k} = - {G_k}^{ - 1}{g_k}$ 可能是病态的，不好求解。
（注：在代数方程中，有的多项式系数有微小扰动时其根变化很大，这种根对系数变化的敏感性称为不稳定性（instability），这种方程就是病态多项式方程）
为了解决“原始”牛顿法的这些问题，人们想出了各种办法，于是就有了下面的各种改进方案，请听我一一道来。
文章来源：http://www.codelast.com/
牛顿法的改进１——阻尼牛顿法
前面说过了，牛顿法不是整体收敛的，在远离最优解时，牛顿方向 ${d_k} = - {G_k}^{ - 1}{g_k}$ 不一定是——而目标函数值“下降”就是最优化努力的方向，因此，人们想到了，可以在牛顿法迭代的过程中加入一点“阻力”：
${x_{k + 1}} = {x_k} + {\alpha _k}{d_k}$
我觉得“阻力”这个词还是比较形象的——原来只有一个 ${d_k}$ ，现在多了一个 ${\alpha _k}$ ，这就像是个阻碍啊。
问题是， ${\alpha _k}$ 怎么求呢？
可以在确定 ${d_k}$ 之后，利用line search技术，求出 ${\alpha _k}$ ，使之满足 $f({x_k} + {\alpha _k}{d_k}) = \mathop {\min }\limits_{\alpha \ge 0} f({x_k} + \alpha {d_k})$ （至于line search的算法，有太多太多了，这里有几个可以参考一下）。
满足了这个条件，会发生什么？
大家还记得《使用一维搜索(line search)的算法的收敛性》定理吗？仔细看里面的“适用于使用精确line search技术的算法”的收敛性定理，你就会发现，当满足了上面所说的条件时，（阻尼）牛顿法的整体收敛性就得到了保证。
当然，满足上面所说的条件的前提，就是所有的 ${G_k}$ 都正定。因为如果 ${G_k}$ 不正定的话，就求不出 ${d_k}$ ；求不出 ${d_k}$ 的话，就求不出 ${\alpha _k}$ ；求不出 ${\alpha _k}$ 的话，就求不出 ${x_{k + 1}}$ ，因此就求不出迭代公式，寻优过程就无法进行。
http://www.codelast.com/
那么问题就来了：阻尼牛顿法确实offer了整体收敛性，但是它并没有解决一个问题： ${G_k}$ 不正定怎么办？此时迭代如何进行下去？因此，另一种改进方案应运而生，各位接着往下看。

Goldstein-Price修正
首先，Goldstein和Price是两个人名，他们的具体生平事迹我没研究过。他们在1967年提出，如果 ${G_k}$ 不正定（此时难以解出 ${d_k} = - {G_k}^{ - 1}{g_k}$ ），就用“最速下降方向”来作为搜索方向（看似已经“过时”的最速下降法还是能发挥余热的，这就体现出来了）：

其中，

$\delta \in (0,1)$
在这样的条件下，就使得

${d_k}$ 总能满足

$\cos ({d_k}, - {g_k}) \ge \delta$ ，从而也就满足了《使用一维搜索(line search)的算法的收敛性》定理中的“搜索方向条件”，从而（Goldstein-Price修正）牛顿法具有整体收敛性。
文章来源：http://www.codelast.com/
『6』Goldfeld修正
与上面的Goldstein-Price修正的思路不同，Goldfeld在1966年也提出了一种方法，他的方法虽然还是在搜索方向

${d_k}$ 上动手，但是当

${G_k}$ 不正定时，他不是用最速下降方向

$- {g_k}$ 来作为搜索方向，而是将

${d_k}$ 修正成下降方向——用下面的式子：

${d_k} = - B_k^{ - 1}{g_k}$
其中，

${B_k} = {G_k} + {E_k}$ 是一个正定矩阵，

${E_k}$ 称为修正矩阵。在

${E_k}$ 满足一定条件的时候，（Goldfeld修正）牛顿法具有整体收敛性。
具体要满足什么条件呢？一个关于矩阵

${B_k}$ “条件数”的条件。说实在的我对这部分不了解，并且这也不是本文的重点，所以在这里我就不把书上的定理搬上来了。
Goldfeld修正没有解决的问题就是：难以给出选取

${E_k}$ 的有效方法。这就像是我告诉你，你要去魔法森林，就需要用到魔棒，但是魔棒去哪找，我不告诉你。于是，有其他的学者提出了其他的改进方法，帮你找到这个“魔棒”，请接着往下看。
文章来源：http://www.codelast.com/
『7』Gill-Murray的Cholesky分解法
看到这个小标题你可能就有点晕——请尽情地晕吧，这里光是人名就有三个。最重要的就是Cholesky，这里我要补充一个小插曲，给大家说点轻松的知识（从网上复制来的，链接不记得了）：

Cholesky是一个法国数学家，生于19世纪末。Cholesky分解是他在学术界最重要的贡献。后来，Cholesky参加了法国军队，不久在一战初始阵亡。
Cholesky分解是一种分解矩阵的方法, 在线性代数中有重要的应用。Cholesky分解把矩阵分解为一个下三角矩阵以及它的共轭转置矩阵的乘积（那实数界来类比的话，此分解就好像求平方根）。与一般的矩阵分解求解方程的方法比较，Cholesky分解效率很高。

Cholesky真是英年早逝，以他对学术界的贡献来看，确实值得我们缅怀。
Gill和Murray这两个人，用Cholesky分解法实现了对牛顿法的改进，我个人觉得，他们的改进可以算是对Goldfeld修正的一种改进（或补充）吧，因为他们提供了求

${E_k}$ 的方法。

这里的Cholesky分解（牛顿法），是这么一回事：对 ${G_k}$ （即Hesse矩阵）进行Cholesky分解，在分解的过程中，对它进行一定的修正，最后得到近似的 $\overline {{G_k}}$ ，把这个 $\overline {{G_k}}$ 当作 ${G_k}$ ，用于解出 ${d_k}$ 。
文章来源：http://www.codelast.com/
至于这个修正过程的具体做法，我只能说我不甚清楚，：
若 ${G_k}$ 为正定矩阵，则它总能进行Cholesky分解，即 ${G_k} = {L_k}{D_k}L_k^T$ ，其中 ${L_k}$ 是一个单位下三角矩阵， ${D_k}$ 是一个对角矩阵（diagonal matrix，除主对角线外的元素均为0的方阵）。
若 ${G_k}$ 不是个正定矩阵，那么就让Chokesky分解过程满足 $\overline {{G_k}} = {L_k}{D_k}L_k^T = {G_k} + {E_k}$ （ ${E_k}$ 是一个对角矩阵），并且在分解过中调整 ${D_k}$ 对角线上的元素（人们总结出了一些调整方法，例如使这些元素>某个正常数），使得Hesse矩阵正定——这里说的Hesse矩阵，是指前面说的 $\overline {{G_k}}$ 。分解完成后，就可以用 $\overline {{G_k}}$ 来解出 ${d_k}$ 了。
如果 ${G_k}$ 是个（书上的名词，谁能给解释一下？）的矩阵，那么经过这个修正的过程， $\overline {{G_k}}$ 其实就是原来的 ${G_k}$ ， ${E_k}$ 其实也就不存在了——这是个很好的特性。
我感觉上面的修正过程，用妹子来做一个比喻就是：一个妹子本来已经长得挺漂亮了，你为她化个妆（只要不是故意黑她），她还是那么漂亮。反之，如果一个妹子长得很搓，那么，你为她化妆，是有可能让她看上去变靓的。总之，都得到了我们想要的结果。
Cholesky分解算法我没看过，这里就没办法说了。

有书上说，Gill-Murray的Cholesky分解牛顿法是“对牛顿法改造得最彻底、最有实用价值的方法”。
看来，有时候真的是：最复杂的就是最好的，没有捷径可走啊。
文章来源：http://www.codelast.com/
『8』信赖域牛顿法
在这篇解释信赖域算法的文章里，我们说过了，信赖域算法具有整体收敛性。利用这一点，可以将其与牛顿法“合体”，创造出具有整体收敛性的信赖域牛顿法，即，我们要求的问题是：

其中，

$s$ 为位移，

$k$ 表示第k次迭代，

${g_k}$ 为梯度，

${G_k}$ 为Hesse矩阵（二阶导数矩阵），

${h_k}$ 为第k次迭代时的信赖域上界（半径）。
为什么它叫信赖域牛顿法？首先，它没有line search，求的是位移s，所以是一种信赖域算法；其次，它在求解的时候用到了梯度和二阶导数，因此是一种牛顿法。所以整体上叫它信赖域牛顿法是讲得过去的。
信赖域牛顿法有一个特点是令人欣慰的：没有要求

${G_k}$ （即Hesse矩阵）必须正定，这与前面各种算法与

${G_k}$ 正定那些纠缠不清的关系有很大不同。
至于信赖域算法的具体求解步骤是怎样的，这里就不说了，还是请大家参考这篇文章。
文章来源：http://www.codelast.com/
『9』总结
对牛顿法及其众多改进的介绍就到这里结束了。大家会看到，里面有很多定理没给出证明，有些推导可能也不够严谨，但是它们的结论基本上是正确的，如果纠结于细节，那真的是要去做理论研究，而不是应用到工程实践了。所以，学习最优化的时候，我们可以在一定程度上“着眼全局，忽略细节”，这会极大地有助于理解。
文章来源：https://www.codelast.com/
➤➤ 版权声明 ➤➤
转载需注明出处：codelast.com
感谢关注我的微信公众号（微信扫一扫）：

[原创] 再谈梯度下降法/最速下降法/Gradient descent/Steepest Descent

learnhard — Wed, 02 Apr 2014 16:23:41 +0000

当今世界，深度学习应用已经渗透到了我们生活的方方面面，深度学习技术背后的核心问题是最优化(Optimization)。最优化是应用数学的一个分支，它是研究在给定约束之下如何寻求某些因素(的量)，以使某一(或某些)指标达到最优的一些学科的总称。
梯度下降法（Gradient descent，又称最速下降法/Steepest descent），是无约束最优化领域中历史最悠久、最简单的算法，单独就这种算法来看，属于早就“过时”了的一种算法。但是，它的理念是其他某些算法的组成部分，或者说在其他某些算法中，也有梯度下降法的“影子”。例如，各种深度学习库都会使用SGD（Stochastic Gradient Descent，随机梯度下降）或变种作为其优化算法。
今天我们就再来回顾一下梯度下降法的基础知识。

『1』名字释义
在很多机器学习算法中，我们通常会通过多轮的迭代计算，最小化一个损失函数(loss function)的值，这个损失函数，对应到最优化里就是所谓的“目标函数”。
在寻找最优解的过程中，梯度下降法只使用目标函数的一阶导数信息——从“梯度”这个名字也可见一斑。并且它的本意是取目标函数值“最快下降”的方向作为搜索方向，这也是“最速下降”这个名字的来源。
于是自然而然地，我们就想知道一个问题的答案：沿什么方向，目标函数 $f(x)$ 的值下降最快呢？

函数值下降最快的方向是什么
先说结论：沿负梯度方向 $d = - {g_k}$ ，函数值下降最快。此处，我们用 $d$ 表示方向(direction)，用 $g$ 表示梯度(gradient)。
下面就来推导一下。
将目标函数 $f(x)$ 在点 ${x_k}$ 处泰勒展开（在最优化领域，这是一个常用的手段）：
$f(x) = f({x_k}) + \alpha g_k^T{d_k} + o(\alpha )$
高阶无穷小 $o(\alpha )$ 可忽略，由于我们定义了步长 $\alpha > 0$ （在ML领域，步长就是平常所说的learning rate），因此，当 $g_k^T{d_k} < 0$ 时， $f(x) < f({x_k})$ ，即函数值是的。此时 ${d_k}$ 就是一个下降方向。
但是 ${d_k}$ 具体等于什么的时候，可使目标函数值下降最快呢？
文章来源：http://www.codelast.com/
数学上，有一个非常著名的不等式：Cauchy-Schwartz不等式（柯西-许瓦兹不等式）¹，它是一个在很多场合都用得上的不等式：

$({a_1}{b_1} + {a_2}{b_2} + \cdots + {a_n}{b_n}) \le \sqrt {(a_1^2 + a_2^2 + \cdots + a_n^2)} \sqrt {(b_1^2 + b_2^2 + \cdots + b_n^2)}$

当且仅当：

$\frac{{{a_1}}}{{{b_1}}} = \frac{{{a_2}}}{{{b_2}}} = \cdots = \frac{{{a_n}}}{{{b_n}}}$

时等号成立。

由Cauchy-Schwartz不等式可知：
$\left| {d_k^T{g_k}} \right| \le \left\| {{d_k}} \right\|\left\| {{g_k}} \right\|$
当且仅当 ${d_k} = {g_k}$ 时，等号成立， $d_k^T{g_k}$ 最大（>0）。
所以 ${d_k} = - {g_k}$ 时， $d_k^T{g_k}$ 最小（<0）， $f(x)$ 下降量最大。
所以 $- {g_k}$ 是最快速下降方向。

『3』缺点
它真的如它的名字所描述的，是“最快速”的吗？从很多经典的最优化书籍你会了解到：并不是。
事实上，它只在局部范围内具有“最速”性质；对整体求最优解的过程而言，它让目标函数值下降非常缓慢。

『4』感受一下它是如何“慢”的
先来看一幅图²：

文章来源：http://www.codelast.com/
这幅图表示的是对一个目标函数寻找最优解的过程，图中锯齿状的路线就是寻优路线在二维平面上的投影。从这幅图我们可以看到，锯齿一开始比较大（跨越的距离比较大），后来越来越小；这就像一个人走路迈的步子，一开始大，后来步子越迈越小。
这个函数的表达式是这样的：
$f({x_1},{x_2}) = {(1 - {x_1})^2} + 100 \cdot {({x_2} - {x_1}^2)^2}$
它叫做Rosenbrock function³（罗森布罗克函数），是个非凸函数，在最优化领域，它可以用作一个最优化算法的performance test函数。这个函数还有一个更好记也更滑稽的名字：banana function（香蕉函数）。
我们来看一看它在三维空间中的图形：

文章来源：http://www.codelast.com/
它的全局最优点位于一个长长的、狭窄的、抛物线形状的、扁平的“山谷”中。

找到“山谷”并不难，难的是收敛到全局最优解（在 (1,1) 处）。

正所谓：世界上最遥远的距离，不是你离我千山万水，而是你就在我眼前，我却要跨越千万步，才能找到你。

文章来源：http://www.codelast.com/
我们再来看另一个目标函数

$f(x,y) = \sin \left( {\frac{1}{2}{x^2} - \frac{1}{4}{y^2} + 3} \right)\cos \left( {2x + 1 - {e^y}} \right)$ 的寻优过程⁴：

和前面的Rosenbrock function一样，它的寻优过程也是“锯齿状”的。
它在三维空间中的图形是这样的：

总而言之就是：当目标函数的等值线接近于圆(球)时，下降较快；等值线类似于扁长的椭球时，一开始快，后来很慢。

文章来源：http://www.codelast.com/
『5』为什么“慢”
从上面花花绿绿的图，我们看到了寻找最优解的过程有多么“艰辛”，但不能光看热闹，还要分析一下原因。
在最优化算法中，精确的line search满足一个一阶必要条件，即：梯度与方向的点积为零（当前点在

${d_k}$ 方向上移动到的那一点（

${x_k} + {\alpha _k}{d_k}$ ）处的梯度，与当前点的搜索方向

${d_k}$ 的点积为零）。
由此得知：

$\nabla f{({x_k} + {\alpha _k}{d_k})^T}{d_k} = 0$ ，即

$g_{k + 1}^T{d_k} = 0$
故由梯度下降法的

${d_k} = - {g_k}$ 得：

$g_{k + 1}^T{d_k} = g_{k + 1}^T( - {g_k}) = - g_{k + 1}^T{g_k} = - d_{k + 1}^T{d_k} = 0 \Rightarrow$

$d_{k + 1}^T{d_k} = 0$
即：相邻两次的搜索方向是相互直交的（投影到二维平面上，就是锯齿形状了）。
文章来源：http://www.codelast.com/
如果你非要问，为什么

$d_{k + 1}^T{d_k} = 0$ 就表明这两个向量是相互直交的？那是因为，由两向量夹角的公式：

$\cos \theta = \frac{{{d_k}^T{d_k}}}{{\left\| {{d_k}} \right\|\left\| {{d_k}} \right\|}} = \frac{0}{{\left\| {{d_k}} \right\|\left\| {{d_k}} \right\|}} = 0\;$
=>

$\theta = \frac{\pi }{2}$
可知两向量夹角为90度，因此它们直交。

『6』优点
这个被我们说得一无是处的方法真的就那么糟糕吗？其实它还是有优点的：程序简单，计算量小；并且对初始点没有特别的要求；此外，许多算法的初始/再开始方向都是最速下降方向（即负梯度方向）。
文章来源：http://www.codelast.com/
『7』收敛性及收敛速度
梯度下降法具有整体收敛性——对初始点没有特殊要求。
采用精确的line search的梯度下降法的收敛速度：线性。

引用

（1）https://en.wikipedia.org/wiki/Cauchy%E2%80%93Schwarz_inequality
（2）https://en.wikipedia.org/wiki/Gradient_descent
（3）https://en.wikipedia.org/wiki/Rosenbrock_function
（4）https://en.wikipedia.org/wiki/Gradient_descent

文章来源：https://www.codelast.com/
➤➤ 版权声明 ➤➤
转载需注明出处：codelast.com
感谢关注我的微信公众号（微信扫一扫）：

[原创] line search中的重要定理 - 梯度与方向的点积为零

learnhard — Sun, 02 Mar 2014 04:17:53 +0000

对精确的line search（线搜索），有一个重要的定理：

这个定理表明，当前点在 ${d_k}$ 方向上移动到的那一点（ ${x_k} + {\alpha _k}{d_k}$ ）处的梯度，与当前点的搜索方向 ${d_k}$ 的点积为零。

其中， ${\alpha _k}$ 是称之为“步长”的一个实数，它是通过line search算法求出来的。

为什么会有这样的结论？我们来看看。
对每一个line search过程来说，搜索方向 ${d_k}$ 已经已经是确定的了（在最优化算法中，如何找出一个合适的 ${d_k}$ 不是line search干的事情）。所以，在一个确定的 ${d_k}$ 上，要找到一个合适的 ${\alpha _k}$ ，使得 $\phi (\alpha ) = f({x_k} + \alpha {d_k})$ 这个函数满足 $f({x_k} + {\alpha _k}{d_k}) < f({x_k})$ ，这就是line search的目的。说白了，就是要找到 ${\alpha _k}$ 使 $\phi (\alpha )$ 的函数函数值变小。
文章来源：http://www.codelast.com/
但是，要小到什么程度呢？假设小到有可能的“最小”，即：
$\phi ({\alpha _k}) = f({x_k} + {\alpha _k}{d_k}) = \mathop {\min }\limits_{\alpha > 0} f({x_k} + \alpha {d_k}) = \mathop {\min }\limits_{\alpha > 0} \phi (\alpha )$
那么，我们称这样的line search为“精确的line search”——你看，这名字好贴切：我们精确地找到了函数值最小的那个点。

既然 ${x_k} + {\alpha _k}{d_k}$ 是函数值最小的那个点，那么，在该点处的一阶导数（即梯度）为零，所以我们对上式求导（ $\alpha$ 是自变量， ${x_k}$ 和 ${d_k}$ 为常量）：
$\phi '({\alpha _k}) = {\left[ {f({x_k} + {\alpha _k}{d_k})} \right]^\prime } \cdot (0 + 1 \cdot {d_k}) = {\left[ {f({x_k} + {\alpha _k}{d_k})} \right]^\prime }{d_k} = \nabla f{({x_k} + {\alpha _k}{d_k})^T}{d_k} = 0$
文章来源：http://www.codelast.com/
这就是我们前面说的定理了。

文章来源：https://www.codelast.com/
➤➤ 版权声明 ➤➤
转载需注明出处：codelast.com
感谢关注我的微信公众号（微信扫一扫）：

[原创]高等数学笔记(24)

learnhard — Sun, 22 Dec 2013 09:16:15 +0000

【前言】
请看此文。
要查看高等数学笔记合集，请看这里。

例2. 证明函数 $y = \sqrt[3]{x},y = \sqrt {{x^2}} = \left| x \right|$ 在 $x = 0$ 点连续，但是在 $x = 0$ 点不可导。

证：
对 $y = \sqrt[3]{x}$ ，自变量在 $x = 0$ 点有增量 $\Delta x$ ，则 $\Delta y = \sqrt[3]{{0 + \Delta x}} - \sqrt[3]{0} = \sqrt[3]{{\Delta x}}$
因此 ${(\Delta y)^3} = \Delta x$
因为 $\mathop {\lim }\limits_{\Delta x \to 0} {(\Delta y)^3} = {\left( {\mathop {\lim }\limits_{\Delta x \to 0} \Delta y} \right)^3} = \mathop {\lim }\limits_{\Delta x \to 0} \Delta x = 0$
所以 $\mathop {\lim }\limits_{\Delta x \to 0} \Delta y = 0$
所以 $y = \sqrt[3]{x}$ 在 $x = 0$ 点连续（注：由第18课的连续性定义可知）
文章来源：http://www.codelast.com/
下面证明导数不存在。
第一个函数：
$\mathop {\lim }\limits_{\Delta x \to 0} \frac{{\Delta y}}{{\Delta x}} = \mathop {\lim }\limits_{\Delta x \to 0} \frac{{\sqrt[3]{{\Delta x}}}}{{\Delta x}} = \mathop {\lim }\limits_{\Delta x \to 0} \frac{1}{{{{(\Delta x)}^{\frac{2}{3}}}}} = \infty$
因此 $y = \sqrt[3]{x}$ 在 $x = 0$ 点不可导。

第二个函数：
对 $y = \sqrt {{x^2}} = \left| x \right| = \left\{ {\begin{array}{*{20}{c}}{x,x \ge 0}\\{ - x,x < 0}\end{array}} \right.$ ，易证 $y = \left| x \right|$ 在 $x = 0$ 点连续（这里就不详细写了）
设自变量 $x$ 在 $x = 0$ 点有增量 $\Delta x$ ，则：

$\Delta y = \left| {0 + \Delta x} \right| - \left| 0 \right| = \left| {\Delta x} \right| = \left\{ {\begin{array}{*{20}{c}}{\Delta x,\Delta x > 0}\\{ - \Delta x,\Delta x < 0}\end{array}} \right.$
在

$x = 0$ 处的右导数

${{f'}_ + }(0) = \mathop {\lim }\limits_{\Delta x \to {0^ + }} \frac{{\Delta y}}{{\Delta x}} = \mathop {\lim }\limits_{\Delta x \to {0^ + }} \frac{{\Delta x}}{{\Delta x}} = 1$
在

$x = 0$ 处的左导数

${{f'}_ - }(0) = \mathop {\lim }\limits_{\Delta x \to {0^ - }} \frac{{\Delta y}}{{\Delta x}} = \mathop {\lim }\limits_{\Delta x \to {0^ - }} \frac{{ - \Delta x}}{{\Delta x}} = - 1$
因为

${{f'}_ + }(0) \ne {{f'}_ - }(0)$
所以

$y = f(x) = \left| x \right|$ 在

$x = 0$ 点不可导（注：由第23课开头的定义可知）
文章来源：http://www.codelast.com/
从函数图形上很容易看出来：

对右图，在

$x = 0$ 点处，切线垂直于

$x$ 轴，斜率为无穷大，故不可导。
文章来源：http://www.codelast.com/
五、几个基本初等函数的导数公式
1. 常数

$C$ ：

$f(x) \equiv C, - \infty < x < + \infty$
下面推导其导数：
令

$y = f(x) \equiv C,\;\forall x \in ( - \infty , + \infty )$

$\Delta y = f(x + \Delta x) - f(x) = C - C = 0$

$f'(x) = \mathop {\lim }\limits_{\Delta x \to 0} \frac{{\Delta y}}{{\Delta x}} = \mathop {\lim }\limits_{\Delta x \to 0} \frac{0}{{\Delta x}} = 0$
因此

${\left( C \right)^\prime } = 0$
文章来源：http://www.codelast.com/
2. 幂函数

$y = f(x) = {x^\alpha }$ （

$\alpha$ 为实常数）
下面推导其导数：
当

$\alpha = n(n \in N)$ 时，有

$\Delta y = f(x + \Delta x) - f(x) = {(x + \Delta x)^n} - {x^n}$
按二项式定理展开前面的

${(x + \Delta x)^n}$ ，得：

$\Delta y = \left[ {{x^n} + n{x^{n - 1}}\Delta x + \frac{{n(n - 1)}}{{2!}}{x^{n - 2}}{{(\Delta x)}^2} + \cdots + {{(\Delta x)}^n}} \right] - {x^n}$

$= n{x^{n - 1}}\Delta x + \frac{{n(n - 1)}}{{2!}}{x^{n - 2}}{(\Delta x)^2} + \cdots + {(\Delta x)^n}$
因此

$\frac{{\Delta y}}{{\Delta x}} = n{x^{n - 1}} + \frac{{n(n - 1)}}{{2!}}{x^{n - 2}}\Delta x + \cdots + {(\Delta x)^{n - 1}}$
因此

$\mathop {\lim }\limits_{\Delta x \to 0} \frac{{\Delta y}}{{\Delta x}} = \mathop {\lim }\limits_{\Delta x \to 0} \left[ {n{x^{n - 1}} + \frac{{n(n - 1)}}{{2!}}{x^{n - 2}}\Delta x + \cdots + {{(\Delta x)}^{n - 1}}} \right] = n{x^{n - 1}}$
（注：从第二项开始，每一项的极限均为0）
因此

$({x^n})' = n{x^{n - 1}}$

$\alpha$ 为任何实常数时，

$({x^\alpha })' = \alpha {x^{\alpha - 1}}$ ，这个结论以后再证明。
文章来源：http://www.codelast.com/
3. 正弦、余弦函数

$y = f(x) = \sin x,f(x) = \cos x$
先来推导正弦函数的导数：

$y = \sin x,\; - \infty < x < + \infty$

$\forall x \in ( - \infty , + \infty )$ ，自变量有增量

${\Delta x}$ ，函数

$y = \sin x$ 的增量

$\Delta y = \sin (x + \Delta x) - \sin x = 2\sin \frac{{\Delta x}}{2}\cos (x + \frac{{\Delta x}}{2})$
（注：三角函数的和差化积公式）
因此

$\frac{{\Delta y}}{{\Delta x}} = \frac{{2\sin \frac{{\Delta x}}{2}\cos (x + \frac{{\Delta x}}{2})}}{{\Delta x}}$
因此

$\mathop {\lim }\limits_{\Delta x \to 0} \frac{{\Delta y}}{{\Delta x}} = \mathop {\lim }\limits_{\Delta x \to 0} \frac{{2\sin \frac{{\Delta x}}{2}}}{{\Delta x}} \cdot \mathop {\lim }\limits_{\Delta x \to 0} \cos (x + \frac{{\Delta x}}{2}) = 1 \cdot \cos x = \cos x$
（注：

$\mathop {\lim }\limits_{\Delta x \to 0} \frac{{2\sin \frac{{\Delta x}}{2}}}{{\Delta x}} = 1$ 是重要极限之一；

$y = \cos x$ 是连续函数，因此

$\mathop {\lim }\limits_{\Delta x \to 0} \cos (x + \frac{{\Delta x}}{2})$ 的极限号可以放进去）
因此

$(\sin x)' = \cos x$
文章来源：http://www.codelast.com/
再来推导余弦函数的导数：

$y = \cos x,\; - \infty < x < + \infty$

$\forall x \in ( - \infty , + \infty )$ ，

$\mathop {\lim }\limits_{\Delta x \to 0} \frac{{\Delta y}}{{\Delta x}} = \mathop {\lim }\limits_{\Delta x \to 0} \frac{{\cos (x + \Delta x) - \cos x}}{{\Delta x}} = \mathop {\lim }\limits_{\Delta x \to 0} \frac{{ - 2\sin \frac{{\Delta x}}{2}\sin \left( {x + \frac{{\Delta x}}{2}} \right)}}{{\Delta x}}$

$= - \mathop {\lim }\limits_{\Delta x \to 0} \frac{{\sin \frac{{\Delta x}}{2}}}{{\frac{{\Delta x}}{2}}} \cdot \mathop {\lim }\limits_{\Delta x \to 0} \sin \left( {x + \frac{{\Delta x}}{2}} \right) = - \sin x$
因此

$(\cos x)' = - \sin x$
文章来源：http://www.codelast.com/
4. 对数函数

$y = f(x) = {\log _a}x\;(a > 0,a \ne 1)$

$y = {\log _a}x,\;0 < x < + \infty$

$\forall x \in (0, + \infty )$ ，设自变量

$x$ 有增量

${\Delta x}$ ，函数对应的增量：

$\Delta y = {\log _a}(x + \Delta x) - {\log _a}x = {\log _a}\left( {\frac{{x + \Delta x}}{x}} \right) = {\log _a}\left( {1 + \frac{{\Delta x}}{x}} \right)$
因此

$\frac{{\Delta y}}{{\Delta x}} = \frac{1}{{\Delta x}}{\log _a}\left( {1 + \frac{{\Delta x}}{x}} \right) = \frac{1}{x} \cdot \frac{x}{{\Delta x}}{\log _a}\left( {1 + \frac{{\Delta x}}{x}} \right) = \frac{1}{x}{\log _a}{\left( {1 + \frac{{\Delta x}}{x}} \right)^{\frac{x}{{\Delta x}}}}$
文章来源：http://www.codelast.com/
因此

$\mathop {\lim }\limits_{\Delta x \to 0} \frac{{\Delta y}}{{\Delta x}} = \mathop {\lim }\limits_{\Delta x \to 0} \left[ {\frac{1}{x}{{\log }_a}{{\left( {1 + \frac{{\Delta x}}{x}} \right)}^{\frac{x}{{\Delta x}}}}} \right] = \frac{1}{x} \cdot \mathop {\lim }\limits_{\Delta x \to 0} \left[ {{{\log }_a}{{\left( {1 + \frac{{\Delta x}}{x}} \right)}^{\frac{x}{{\Delta x}}}}} \right]$

$= \frac{1}{x} \cdot {\log _a}\left[ {\mathop {\lim }\limits_{\Delta x \to 0} {{\left( {1 + \frac{{\Delta x}}{x}} \right)}^{\frac{x}{{\Delta x}}}}} \right] = \frac{1}{x} \cdot {\log _a}e = \frac{1}{x} \cdot \frac{1}{{\ln a}} = \frac{1}{{x\ln a}}$
（注：

$\mathop {\lim }\limits_{\Delta x \to 0} {\left( {1 + \frac{{\Delta x}}{x}} \right)^{\frac{x}{{\Delta x}}}} = e$ 是重要极限之一，即

$\mathop {\lim }\limits_{\alpha \to 0} {(1 + \alpha )^{\frac{1}{\alpha }}} = e$ ）
因此

${\left( {{{\log }_a}x} \right)^\prime } = \frac{1}{{x\ln a}}$

$(\ln x)' = \frac{1}{{x\ln e}} = \frac{1}{x}$
文章来源：http://www.codelast.com/
本课推导的常用的导数公式总结：

${\left( C \right)^\prime } = 0$

${\left( {{x^\alpha }} \right)^\prime } = \alpha {x^{\alpha - 1}}$

${\left( {\sin x} \right)^\prime } = \cos x$

${\left( {\cos x} \right)^\prime } = - \sin x$

${\left( {{{\log }_a}x} \right)^\prime } = \frac{1}{{x\ln a}}$

${\left( {\ln x} \right)^\prime } = \frac{1}{x}$
文章来源：http://www.codelast.com/
（第24课完）

文章来源：https://www.codelast.com/
➤➤ 版权声明 ➤➤
转载需注明出处：codelast.com
感谢关注我的微信公众号（微信扫一扫）：

Math – 编码无悔 / Intent & Focused

[原创] 推荐一款编写数学公式的国产神器：AxMath，可与LATEX双向转换

[原创] 重要性采样／Importance Sampling

[原创] 蒙特卡罗算法 对比 拉斯维加斯算法

[原创] 蒙特卡罗方法的实例2：计算定积分

[原创] 蒙特卡罗方法的定义、历史以及存在意义

[原创] 用人话解释蒙特卡罗方法/Monte Carlo method(文章合集)

[原创] 蒙特卡罗方法的实例1：计算圆周率

[原创] 如何防止softmax函数上溢出(overflow)和下溢出(underflow)

[原创]Machine Learning/机器学习 文章合集

[原创] 用人话解释机器学习中的Logistic Regression（逻辑回归）

[原创] 再谈 共轭方向法/Conjugate Direction Method In Optimization

[原创] 再谈 牛顿法/Newton's Method In Optimization

[原创] 再谈 梯度下降法/最速下降法/Gradient descent/Steepest Descent

[原创] line search中的重要定理 - 梯度与方向的点积为零

[原创]高等数学笔记(24)

[原创] 蒙特卡罗算法对比拉斯维加斯算法

[原创]Machine Learning/机器学习文章合集

[原创] 再谈共轭方向法/Conjugate Direction Method In Optimization

[原创] 再谈牛顿法/Newton's Method In Optimization

[原创] 再谈梯度下降法/最速下降法/Gradient descent/Steepest Descent