最优化 – 编码无悔 / Intent & Focused

[原创] 用人话解释机器学习中的Logistic Regression（逻辑回归）

learnhard — Fri, 19 Feb 2016 08:47:08 +0000

友情提示：如果觉得页面中的公式显示太小，可以放大页面查看（不会失真）。

Logistic Regression（或Logit Regression），即逻辑回归，简记为LR，是机器学习领域的一种极为常用的算法／方法／模型。
你能从网上搜到十万篇讲述Logistic Regression的文章，也不多我这一篇，但是，就像我写过的最优化系列文章一样，我仍然试图用“人话”来再解释一遍——可能不专业，但是容易看得懂。那些一上来就是几页数学公式什么的最讨厌了，不是吗？
所以这篇文章是写给完全没听说过Logistic Regression的人看的，我相信看完这篇文章，你差不多可以从无到有，把逻辑回归应用到实践中去。

Logistic Regression是一种分类算法。分类，也就是把一个群体（或问题，或数据）分为几个类别，例如，男/女/人妖；爱她的人/不爱她的人；今天会下雨/今天不会下雨。
Logistic Regression最常用于处理“二分类”问题，也就是说分类只有两个，像“爱她的人/不爱她的人”就是二分类，而“男/女/人妖”就不是二分类。当然，Logistic Regression也可以用于处理多分类问题，即所谓的“多分类逻辑回归”（Multiclass Logistic Regression），但本文并不涉及这个方面。
所以，说得简单点就是，给你一条数据，用Logistic Regression可以判断出这条数据应该被分到两个类别中的哪个中去。
文章来源：http://www.codelast.com/
Logistic Regression在现实世界中非常有用。例如，可以用它来判断一个用户是否会点击一个广告（会点击／不会点击），可以用Logistic Regression来判断两类人是否会相爱（会相爱／不会相爱），等等。

机器学习的主旨就是通过对历史数据的计算（即“学习”），得到一些未知参数的值，从而可以推断出新数据会有什么结论。例如一个非常简单的函数： $y = ax + b$ ，在已知几组 $(x,y)$ 历史数据的情况下：

(1, 5.5)
(1.5, 7)
(2, 6.5)

我们怎样能够预测一个未知的自变量 $x = 3$ 会对应什么样的因变量 $y$ 呢？也就是说， $x = 3$ 时 $y = ?$
显然我们的任务就是计算出两个未知参数 $a$ 和 $b$ 的值，有了这两个值，那么任意给定一个 $x$ ，我们都能通过函数 $y = ax + b$ 计算出 $y$ 的值了，这就是所谓的“预测”。
http://www.codelast.com/
Logistic Regression也是类似，我们有一个函数 $y = f(X)$ ，里面包含若干个未知参数 ${\theta _0},{\theta _1},{\theta _2}, \cdots ,{\theta _n}$ 。
由于现实世界是复杂的，因变量 $y$ 通常会跟很多因素（自变量 $x$ ）有关系，即 ${x_0},{x_1},{x_2}, \cdots ,{x_n}$ ，所以这里自变量是一个，这里用大写的 $X$ 来表示。同理，那一堆未知的参数也是一个向量，用一个字母 $\theta$ 来表示。
现在给我们一堆 $(x,y)$ 的历史数据，我们要想办法计算出所有未知参数的值，然后就可以拿来预测新的 $x$ 值所对应的 $y$ 值了。
但是这个函数是什么呢？如下：

其中， $\theta$ 是参数向量， $X$ 是自变量（向量）。
文章来源：http://www.codelast.com/
那么，这个略显奇怪的函数是怎么来的呢？
首先我们看 ${{\theta ^T}X}$ 这部分：这是参数向量与自变量（向量）的点积，这个式子想要表达的含义是：计算某个事件发生的可能性，可以把跟这个事件相关的所有特征加权求和。例如，要求今天下雨的可能性，可以把今天所有和下雨相关的概率加权求和，例如梅雨季节权重为9（每天都很可能下雨），有台风经过权重为6，等等，每一个因素都影响着“下雨的可能性”，即：
$s = \sum\limits_{i = 0}^n {{\theta _i}{x_i}} = {\theta _0}{x_0} + {\theta _1}{x_1} + \cdots + {\theta _n}{x_n} = {\theta ^T}X$
但是这个加权求和的结果是在 $( - \infty , + \infty )$ 范围内的，为了能表示预测的概率，我们希望把输出值限制在 $(0,1)$ 之间，而不是 $( - \infty , + \infty )$ 。所以，这时，逻辑函数就出场了。

文章来源：http://www.codelast.com/
通过这个WiKi页面你可以知道，其实所谓的逻辑函数，就是这样的一个函数：

$P(t) = \frac{1}{{1 + {e^{ - t}}}}$
这个函数是由 Pierre François Verhulst（皮埃尔·弗朗索瓦·韦吕勒）在1844～1845年的时候给它起的名字。而我们上面的函数(1)，就是这个形式。
逻辑函数的图像是这个样子的：

它的函数值刚好就是在(0,1)之间。
所以，我们通过逻辑函数，就可以计算出一个事件的概率了（(0,1)之间）。但是不要忘了，我们前面说要处理二分类问题，得到一个(0,1)之间的任意值并不能归到两个分类中的一个里去，所以还要把这个概率值“归类”。其实这里很简单，我们可以在

$f(X) > 0.5$ 的时候，把它归到类别1中，

$f(X) \le 0.5$ 的时候，把它归到类别2中就可以了（概率值的“分水岭”可以根据实际情况调整）。用数学公式来表达这段话的含义就是：

$y' = \left\{ {\begin{array}{*{20}{c}}{0,f(X) > 0.5}\\{1,f(X) \le 0.5}\end{array}} \right.$

在各种机器学习的文章中，你都会看到，它们给了逻辑函数一个常用的名字：Sigmoid函数。sigmoid，意为“S形的”，这正符合其函数图像特点，所以大家记住就行了。
http://www.codelast.com/
现在，我们已经有了函数，下一步任务就是求出函数表达式中的未知参数向量 $\theta$ 了。这个过程是机器学习中最为核心的计算步骤。
以前面讲过的函数 $y = ax + b$ 为例：
你会发现，当已知几组 $(x,y)$ 数据的情况下：

(1, 5.5)
(1.5, 7)
(2, 6.5)

你无论如何也不可能找到一对 $a$ 和 $b$ 的值，使得以上3组数据能精确地满足方程 $y = ax + b$ ，正如下面的图像所示：

这条直线如果要精确地通过其中的两个点，那么就不能通过第三个点。所以，最终求出来的 $a$ 和 $b$ 的值，并不是方程的解析解，而是“最优解”。
因此，问题在于，我们如何画一条直线，使得其是“最优”的？“最优”的评判标准是什么？
文章来源：http://www.codelast.com/
为了理解“最优”，我们需要先了解一些概念。

损失函数／Loss Function／代价函数／Cost Function

很多文章说，这几个名词的含义是一样的。但是也有文章说，Loss Function和Cost Function不是一回事，例如这篇文章。但通常认为，这二者是一回事。我觉得嘛，大家就按通常的概念来接受就好了。
按WiKi的定义：

In mathematical optimization, statistics, decision theory and machine learning, a loss function or cost function is a function that maps an event or values of one or more variables onto a real number intuitively representing some "cost" associated with the event. An optimization problem seeks to minimize a loss function.

以及：

The loss function quantifies the amount by which the prediction deviates from the actual values.

我们可以知道，损失函数用于衡量预测值与实际值的偏离程度，如果预测是完全精确的，则损失函数值为0；如果损失函数值不为0，则其表示的是预测的错误有多糟糕。使得损失函数值最小的那些待求参数值，就是“最优”的参数值。
文章来源：http://www.codelast.com/
所以现在问题来了，损失函数的表达式又是什么？
在探讨损失函数的表达式之前，我们先来看一下损失函数有哪些种类。
损失函数有很多种，例如下面几个：
（1）0-1损失函数：可用于分类问题，即该函数用于衡量分类错误的数量，但由于此损失函数是非凸（non-convex）的，因此在做最优化计算时，难以求解，所以，正因为如此，0-1损失函数不是那么“实用”（如果这句话有误，请指正）。
（2）平方损失函数（Square Loss）：常用于线性回归（Linear Regression）。
（3）对数损失（Log Loss）函数：常用于其模型输出每一类概率的分类器（classifier），例如逻辑回归。
（4）Hinge损失函数：常用于SVM（Support Vector Machine，支持向量机，一种机器学习算法）。中文名叫“合页损失函数”，因为hinge有“合页”之意。这个翻译虽然直白，但是你会发现，99％的文章都不会用它的中文名来称呼它，而是用“Hinge损失”之类的说法。

这些都是人们的经验总结，当然，说每一种损失函数常用于什么机器学习算法，也都是有数学依据的。但是在这里，我们讲的是Logistic Regression，所以只看对数损失函数。对数损失函数通常用于衡量分类器（classifier）的精度，这里的“分类器”也就是指机器学习的模型，它对每一个类别输出一个概率值。从前面的文章中，我们已经知道了，逻辑回归就是这样一种分类器，所以才用对数损失函数来衡量其精度。
有时候，对数损失函数（Log Loss）也被叫作交叉熵损失函数（Cross-entropy Loss）。交叉熵这个名字比较拗口，在信息理论中，用于衡量某种事件的“不可预测性”，而=事件的真实分布+不可预测性，所以交叉熵可以用于度量两个概率分布（真实分布&预测分布）之间的差异性，即：交叉熵损失函数（对数损失函数）可以衡量一个模型对真实值带来的额外噪音，通过最小化交叉熵损失函数（对数损失函数），我们就可以最大化分类器（模型）的精度。
上面这一大段话试图用简单的描述让你相信，为什么要用Log Loss来衡量Logistic Regression的误差，但是没有给出证明。有人可能会说，为什么不能用其他的方法来衡量，例如用平方损失函数（Square Loss）。事实上，这是有数学依据的——它会导致损失函数是一个关于参数向量 $\theta$ 的凸函数，而用对数损失函数就没有这种问题。凸函数的性质为我们后面求解参数向量 $\theta$ 提供了极大便利，非凸函数有很多局部最优解，不利于求解 $\theta$ 的计算过程。
文章来源：http://www.codelast.com/
到这里为止，我们还是没有提到损失函数的数学表达式，但是如果要计算损失函数的值，我们是回避不了的，必须要知道。所以，这里用 L 来表示损失函数（取Loss之意），则对数损失函数的表达式为：

其中， ${{y_i}}$ 是第i个真实值（ ${y_i} \in \{ 0,1\}$ ）， ${{{\hat y}_i}}$ 是第i个预测值。
这个对数损失函数的表达式中并没有出现我们要求解的参数 $\theta$ ，所以我们把 $\hat y = f(X) = \frac{1}{{1 + {e^{ - {\theta ^T}X}}}}$ 代到（2）式中去：
$L = - \frac{1}{N}\sum\limits_{i = 1}^n {\left[ {{y_i}\log \left( {\frac{1}{{1 + {e^{ - {\theta ^T}{X_i}}}}}} \right) + (1 - {y_i})\log \left( {1 - \frac{1}{{1 + {e^{ - {\theta ^T}{X_i}}}}}} \right)} \right]}$
再来仔细看一下这个式子：N 为数据集的条数（有多少组 $(X,y)$ ，N就是多少），已知； ${{y_i}}$ 是真实值，已知； ${{X_i}}$ 是输入的向量，也已知。所以整个式子里只有 $\theta$ 是未知的，可以记为 $L(\theta )$ ，称之为：
$L(\theta ) = - \frac{1}{N}\sum\limits_{i = 1}^n {\left[ {{y_i}\log \left( {\frac{1}{{1 + {e^{ - {\theta ^T}{X_i}}}}}} \right) + (1 - {y_i})\log \left( {1 - \frac{1}{{1 + {e^{ - {\theta ^T}{X_i}}}}}} \right)} \right]}$
因此，我们只要找到一个参数向量 $\theta$ ，能使得此式的值最小，那么这个参数向量 $\theta$ 就是“最优”的参数向量。
求得了这个最优的 $\theta$ 之后，把它代入式（1），则对任一个未知的 $X$ ，我们都可以计算出 $f(X)$ 值，然后再根据一个阈值把它调整到 0 或 1，就得到了这个 $X$ 所属的分类，这样，我们就完成了一次“预测”的过程。
文章来源：http://www.codelast.com/

求解方法

所以现在问题来了，这个“最优”的参数向量

$\theta$ 怎么求解？
在大的方向上，你可以选择不使用搜索方向的算法（例如信赖域算法），也可以选择众多使用搜索方向的算法（例如梯度下降法）。
在是否计算目标函数的导数这个方面，你可以使用不用求目标函数导数的算法（例如Powell共轭方向集方法），也可以使用要求目标函数导数的算法（例如梯度下降法）。由于某些目标函数形式特别复杂，计算其导数特别麻烦，所以在这种时候，不用计算导数的算法可能大有帮助。

求解的过程就是一个最优化的过程，本文无法用一两句话描述清楚，请大家移步链接进行阅读。

事实上，在现在各种机器学习library百花齐放的今天，我们基本上不需要自己编写这些算法的具体实现，只需要调用它们即可。例如，通过Spark的Machine Learning Library (MLlib)，我们可以直接使用Stochastic gradient descent (SGD)，Limited-memory BFGS (L-BFGS)等实现。但是对这背后的原理有所了解，对工作学习是有帮助的。
文章来源：https://www.codelast.com/
➤➤ 版权声明 ➤➤
转载需注明出处：codelast.com
感谢关注我的微信公众号（微信扫一扫）：

[原创] 再谈共轭方向法/Conjugate Direction Method In Optimization

learnhard — Sat, 26 Apr 2014 16:13:12 +0000

共轭方向法是介于最速下降法和牛顿法之间的一种存在——它的收敛速度（二阶收敛）比最速下降法（线性收敛）快，同时它的计算量又比牛顿法要小，因此它的存在是有意义的。

需要注意，共轭方向法可以不使用目标函数的一阶导数信息（当然也可以使用）。所以，如果目标函数的一阶导数不容易求的话，共轭方向法可能就可以派上用场了。
共轭方向法的显著特征就是：两次搜索方向之间是有关联的，这种关联就是“共轭”。
文章来源：http://www.codelast.com/
向量共轭
先解释一下向量共轭的含义，你就明白共轭方向法的两次搜索方向之间的“共轭”是怎么回事了。
设 $G$ 为对称正定矩阵，若 $d_m^TG{d_n} = 0,\;\;m \ne n$ ，则称 ${d_m}$ 和 ${d_n}$ 为“G共轭”，共轭方向是“互不相关”的方向。

特性
当目标函数是二次函数 $f(x) = \frac{1}{2}{x^T}Gx + {b^T}x + c$ 时，共轭方向法最多经过N步（N为向量维数）迭代，就可以到达极小值点——这种特性叫作二次收敛性（Quadratic Convergence）。
假设沿着一系列的共轭方向做迭代（寻找极小值点），这些共轭方向组成的集合叫作共轭方向集，则沿共轭方向集的每个方向顺序做line search的时候，在每个方向上都不需要做重复搜索——在任何一个方向上的移动，都不会影响到在另一个方向上已经找到的极小值。
上面这段描述是什么意思呢？我们先不讨论这些共轭方向是怎么计算出来的，拿一个在水平面上走路的例子来做比喻：你在水平方向A上走了10米，然后再沿着与水平方向垂直的另一个方向B上又走了10米，那么，你在方向A上走动的时候，在方向B上的坐标是不变的；你在方向B上走动的时候，在方向A上的坐标也是不变的。因此，把方向A和方向B看作两个共轭方向，那么，你在这两个共轭方向中的任何一个方向上移动，都不会影响到另一个方向上已经走到的坐标（把它想像成在这个方向上的极小值）。
文章来源：http://www.codelast.com/
但是世界哪有那么美好？目标函数不是二次函数的时候多得去了！这个时候，共轭方向法不就废了吗？非也非也。
理论与实践证明，将二次收敛算法用于非二次的目标函数，也有很好的效果。但是，这个时候，就不能保证N步迭代到达极小值点了。大家需要记住的是，很多函数都可以用二次函数很好地近似，这种近似在工程上是很重要。
有人一定会问，哪些函数可以用二次函数很好地近似呢？请原谅我没在书中看到这个总结，你只能自己去挖掘了。

『3』理论基础
共轭方向法有一个重要的理论基础，它是一个神奇的定理，有了它，可以推导出很多结论（共轭梯度法的理论推导就依赖于此）。
这里只把结论写上来，证明较长，不是本文关注的所以就不写了：
在精确line search的情况下，当前迭代点的梯度 $g$ 与前面所有的搜索方向 $d$ 直交：
$g_{i + 1}^T{d_j} = 0,\;\;j = 0,1, \cdots ,i$
这个结论在很多专业书中，都用了晦涩的描述来显示出教科书般的“高端、大气、上档次”，我看完之后只有一个感觉：看你们这些牛人写的书压力好大啊！
上面的红字，是我认为可以精简成“人话”之后的描述，也许它不严谨，也许它有漏洞，但是它大概说的就是这么回事，简单不就是美吗？
下面稍微解释一下定理中的一些概念：

● 为什么

$g_{i + 1}^T{d_j} = 0$ 表明两个向量“直交”？从两个向量的夹角的数学定义：

我们可知，

$g_{i + 1}^T{d_j}$ 为0时，整个式子为零，从而

$\theta = \frac{\pi }{2}$ ，也就是说两个向量的夹角是

$\frac{\pi }{2}$ ，所以它们当然是“直交”的。

在

$g_{i + 1}^T{d_j} = 0$ 这个式子中，当

$g$ 的下标是

${i + 1}$ 时，

$d$ 的下标可以是

$0,1,\cdots ,i$ ，例如，

$g_3^T{d_0} = 0,\;\;g_3^T{d_1} = 0,\;\;g_3^T{d_2} = 0$ ，这表明，当前迭代点的梯度

${g_3}$ 与前面所有的搜索方向（

${d_0},{d_1},{d_2}$ ）直交。

文章来源：http://www.codelast.com/
现在我把某书中一段和上面的理论等价的描述摘录下来，让大家看看它描述得是不是很晦涩：
共轭方向法在迭代过程中的每一个迭代点 ${x_{i + 1}}$ 都是目标函数 $f(x)$ 在 ${x_0}$ 和方向 ${d_0},{d_1}, \cdots ,{d_i}$ 所张成的线性流形

中的极小点。

其实这个晦涩的描述，是line search基础定理——梯度与方向的点积为零——的另一种表述。例如，我们拿一个特例来说：

迭代点

${x_2}$ （此时

$i = 1$ ）是目标函数

$f(x)$ 和方向

${d_0},{d_1}$ 所张成的线性流形

$\left\{ {\left. x \right|x = {x_0} + {\alpha _0}{d_0} + {\alpha _1}{d_1}} \right\}$ 的极小值点。

而

${x_0} + {\alpha _0}{d_0} + {\alpha _1}{d_1} = {x_1} + {\alpha _1}{d_1} = {x_2}$ ，所以这就说明了

${x_1}$ 是在

${{d_0}}$ 方向上line search得到的极小值点，

${x_2}$ 是在

${{d_1}}$ 方向上line search得到的极小值点。所以由基础定理可知，当前迭代点的梯度与前面所有方向的点积为零。

自己慢慢体会...
文章来源：http://www.codelast.com/
基本流程
下面来看看，共轭方向法在迭代过程中是怎么做的。
假设迭代已经进行到了第 $k$ 步，那么，下一步怎么走？

确定一个搜索方向要满足： ${g_{k + 1}}^T{d_{k + 1}} < 0$ ——这是为了满足目标函数值下降的条件（下降是最优化的目标），并且 $d_{k + 1}^TG{d_i} = 0,\;\;i = 1,2, \cdots ,k$ ——这是为了满足搜索方向之间的“共轭”条件。
检验迭代终止条件，若未终止，则用line search求 $f({x_k} + {\alpha _k}{d_k}) = \mathop {\min }\limits_{\alpha \ge 0} f({x_k} + \alpha {d_k})$ ——在每一个搜索方向上，我们都要找到极小值点。
${x_{k + 1}} = {x_k} + {\alpha _k}{d_k}$ ，继续迭代

大家注意到，上面说确定一个搜索方向，要满足“共轭”的条件，问题是，共轭方向是如何获取的？光有愿望可不行啊。
文章来源：http://www.codelast.com/
『5』创造共轭方向
这里的关键是，如何构造出一个方向的集合，其N个方向线性无关、两两共轭？
有一个经典的方案就是Powell共轭方向集方法。
Powell是谁？

M.J.D. POWELL，剑桥大学教授（已故），世界著名的最优化专家。他是袁亚湘的导师（袁亚湘，中国科学院数学与系统科学研究院研究员、博士生导师，美国数学学会首届会士（2012年），中国科学院院士）。

Powell方法是一种不需要求目标函数导数的方法（zero-order method）。有一篇英文文章里说，如果你只需要知道一种zero-order method如何编程实现的话，那么一定是选Powell方法，可见Powell方法是有其重要地位的。
关于Powell方法，可以参考一下这篇文章，本文不详述。
文章来源：http://www.codelast.com/
『6』Powell方法的问题及改进
Powell方法产生的共轭方向集可能会变得线性相关，这会导致最终我们求得的，是N维空间的一个子空间内的极小值，而不是整体的极小值，所以，人们对Powell方法研究出了一些改进方案，例如：

N轮迭代后，方向集重置为基向量；
Brent（就是Brent's method的作者）提出，N轮迭代后，可以将方向集重置为任意正交矩阵（见下面的说明）的列向量；
放弃目标函数下降最大的方向，用一些好的方向代替N个必须共轭的方向；
...

PS：什么是？
一个实数正交矩阵是方块矩阵Q，它的转置矩阵是它的逆矩阵： ${Q^T}Q = Q{Q^T} = E$ ，其中， $E$ 为单位矩阵：

文章来源：https://www.codelast.com/
➤➤ 版权声明 ➤➤
转载需注明出处：codelast.com
感谢关注我的微信公众号（微信扫一扫）：

[原创] 再谈牛顿法/Newton's Method In Optimization

learnhard — Sun, 06 Apr 2014 02:58:34 +0000

牛顿法是最优化领域的经典算法，它在寻优的过程中，使用了目标函数的二阶导数信息，具体说来就是：用迭代点的梯度和二阶导数对目标函数进行二次逼近，把二次函数的极小点作为新的迭代点，不断重复此过程，直到找到最优点。

『1』历史
话说，牛顿法为什么叫牛顿法？这个近乎“废话”的问题，谁又真正查过？
Wiki里是这样写的：牛顿法（Newton's method）是一种近似求解方程的方法，它使用函数f(x)的泰勒级数的前面几项来寻找方程f(x)=0的根。
它最初由艾萨克•牛顿在《流数法》（Method of Fluxions，1671年完成，在牛顿死后的1736年公开发表）。
按我的理解，起初牛顿法和最优化没什么关系（在那个年代应该还没有最优化这门学科分支），但是在最优化研究兴起后，人们把牛顿法的思想应用在最优化领域，于是也就叫它牛顿法了。

文章来源：http://www.codelast.com/

原理
下面我们就来推导一下牛顿法的实现。
目标函数 $f(x)$ 在点 ${x_k}$ 的泰勒展示式前三项为：
${q_k}(x) = {q_k}({x_k} + x - {x_k}) = f({x_k}) + g_k^T(x - {x_k}) + \frac{1}{2}{(x - {x_k})^T}{G_k}(x - {x_k}) + o(x - {x_k})$
其中， ${g_k}$ 是一阶导数（梯度）， ${G_k}$ 是二阶导数。当然，最后一项（高阶无穷小）我们依然是不考虑的。
http://www.codelast.com/
$x$ 为极小值点的一阶必要条件是：
$\nabla {q_k}(x) = 0 = {g_k} + {G_k}(x - {x_k})$
由此便可得到迭代公式： ${x_{k + 1}} = {x_k} - {G_k}^{ - 1}{g_k}$
在最优化line search的过程中，下一个点是由前一个点在一个方向d上移动得到的，因此，在牛顿法中，人们就顺其自然地称这个方向为“”，由上面的式子可知其等于： ${d_k} = - {G_k}^{ - 1}{g_k}$

『3』优缺点
优点：充分接近极小点时，牛顿法具有二阶收敛速度——挺好的，不是么。
缺点：
①牛顿法不是整体收敛的。
②每次迭代计算 ${G_k}$ （的逆矩阵），计算量偏大。
③线性方程组 ${d_k} = - {G_k}^{ - 1}{g_k}$ 可能是病态的，不好求解。
（注：在代数方程中，有的多项式系数有微小扰动时其根变化很大，这种根对系数变化的敏感性称为不稳定性（instability），这种方程就是病态多项式方程）
为了解决“原始”牛顿法的这些问题，人们想出了各种办法，于是就有了下面的各种改进方案，请听我一一道来。
文章来源：http://www.codelast.com/
牛顿法的改进１——阻尼牛顿法
前面说过了，牛顿法不是整体收敛的，在远离最优解时，牛顿方向 ${d_k} = - {G_k}^{ - 1}{g_k}$ 不一定是——而目标函数值“下降”就是最优化努力的方向，因此，人们想到了，可以在牛顿法迭代的过程中加入一点“阻力”：
${x_{k + 1}} = {x_k} + {\alpha _k}{d_k}$
我觉得“阻力”这个词还是比较形象的——原来只有一个 ${d_k}$ ，现在多了一个 ${\alpha _k}$ ，这就像是个阻碍啊。
问题是， ${\alpha _k}$ 怎么求呢？
可以在确定 ${d_k}$ 之后，利用line search技术，求出 ${\alpha _k}$ ，使之满足 $f({x_k} + {\alpha _k}{d_k}) = \mathop {\min }\limits_{\alpha \ge 0} f({x_k} + \alpha {d_k})$ （至于line search的算法，有太多太多了，这里有几个可以参考一下）。
满足了这个条件，会发生什么？
大家还记得《使用一维搜索(line search)的算法的收敛性》定理吗？仔细看里面的“适用于使用精确line search技术的算法”的收敛性定理，你就会发现，当满足了上面所说的条件时，（阻尼）牛顿法的整体收敛性就得到了保证。
当然，满足上面所说的条件的前提，就是所有的 ${G_k}$ 都正定。因为如果 ${G_k}$ 不正定的话，就求不出 ${d_k}$ ；求不出 ${d_k}$ 的话，就求不出 ${\alpha _k}$ ；求不出 ${\alpha _k}$ 的话，就求不出 ${x_{k + 1}}$ ，因此就求不出迭代公式，寻优过程就无法进行。
http://www.codelast.com/
那么问题就来了：阻尼牛顿法确实offer了整体收敛性，但是它并没有解决一个问题： ${G_k}$ 不正定怎么办？此时迭代如何进行下去？因此，另一种改进方案应运而生，各位接着往下看。

Goldstein-Price修正
首先，Goldstein和Price是两个人名，他们的具体生平事迹我没研究过。他们在1967年提出，如果 ${G_k}$ 不正定（此时难以解出 ${d_k} = - {G_k}^{ - 1}{g_k}$ ），就用“最速下降方向”来作为搜索方向（看似已经“过时”的最速下降法还是能发挥余热的，这就体现出来了）：

其中，

$\delta \in (0,1)$
在这样的条件下，就使得

${d_k}$ 总能满足

$\cos ({d_k}, - {g_k}) \ge \delta$ ，从而也就满足了《使用一维搜索(line search)的算法的收敛性》定理中的“搜索方向条件”，从而（Goldstein-Price修正）牛顿法具有整体收敛性。
文章来源：http://www.codelast.com/
『6』Goldfeld修正
与上面的Goldstein-Price修正的思路不同，Goldfeld在1966年也提出了一种方法，他的方法虽然还是在搜索方向

${d_k}$ 上动手，但是当

${G_k}$ 不正定时，他不是用最速下降方向

$- {g_k}$ 来作为搜索方向，而是将

${d_k}$ 修正成下降方向——用下面的式子：

${d_k} = - B_k^{ - 1}{g_k}$
其中，

${B_k} = {G_k} + {E_k}$ 是一个正定矩阵，

${E_k}$ 称为修正矩阵。在

${E_k}$ 满足一定条件的时候，（Goldfeld修正）牛顿法具有整体收敛性。
具体要满足什么条件呢？一个关于矩阵

${B_k}$ “条件数”的条件。说实在的我对这部分不了解，并且这也不是本文的重点，所以在这里我就不把书上的定理搬上来了。
Goldfeld修正没有解决的问题就是：难以给出选取

${E_k}$ 的有效方法。这就像是我告诉你，你要去魔法森林，就需要用到魔棒，但是魔棒去哪找，我不告诉你。于是，有其他的学者提出了其他的改进方法，帮你找到这个“魔棒”，请接着往下看。
文章来源：http://www.codelast.com/
『7』Gill-Murray的Cholesky分解法
看到这个小标题你可能就有点晕——请尽情地晕吧，这里光是人名就有三个。最重要的就是Cholesky，这里我要补充一个小插曲，给大家说点轻松的知识（从网上复制来的，链接不记得了）：

Cholesky是一个法国数学家，生于19世纪末。Cholesky分解是他在学术界最重要的贡献。后来，Cholesky参加了法国军队，不久在一战初始阵亡。
Cholesky分解是一种分解矩阵的方法, 在线性代数中有重要的应用。Cholesky分解把矩阵分解为一个下三角矩阵以及它的共轭转置矩阵的乘积（那实数界来类比的话，此分解就好像求平方根）。与一般的矩阵分解求解方程的方法比较，Cholesky分解效率很高。

Cholesky真是英年早逝，以他对学术界的贡献来看，确实值得我们缅怀。
Gill和Murray这两个人，用Cholesky分解法实现了对牛顿法的改进，我个人觉得，他们的改进可以算是对Goldfeld修正的一种改进（或补充）吧，因为他们提供了求

${E_k}$ 的方法。

这里的Cholesky分解（牛顿法），是这么一回事：对 ${G_k}$ （即Hesse矩阵）进行Cholesky分解，在分解的过程中，对它进行一定的修正，最后得到近似的 $\overline {{G_k}}$ ，把这个 $\overline {{G_k}}$ 当作 ${G_k}$ ，用于解出 ${d_k}$ 。
文章来源：http://www.codelast.com/
至于这个修正过程的具体做法，我只能说我不甚清楚，：
若 ${G_k}$ 为正定矩阵，则它总能进行Cholesky分解，即 ${G_k} = {L_k}{D_k}L_k^T$ ，其中 ${L_k}$ 是一个单位下三角矩阵， ${D_k}$ 是一个对角矩阵（diagonal matrix，除主对角线外的元素均为0的方阵）。
若 ${G_k}$ 不是个正定矩阵，那么就让Chokesky分解过程满足 $\overline {{G_k}} = {L_k}{D_k}L_k^T = {G_k} + {E_k}$ （ ${E_k}$ 是一个对角矩阵），并且在分解过中调整 ${D_k}$ 对角线上的元素（人们总结出了一些调整方法，例如使这些元素>某个正常数），使得Hesse矩阵正定——这里说的Hesse矩阵，是指前面说的 $\overline {{G_k}}$ 。分解完成后，就可以用 $\overline {{G_k}}$ 来解出 ${d_k}$ 了。
如果 ${G_k}$ 是个（书上的名词，谁能给解释一下？）的矩阵，那么经过这个修正的过程， $\overline {{G_k}}$ 其实就是原来的 ${G_k}$ ， ${E_k}$ 其实也就不存在了——这是个很好的特性。
我感觉上面的修正过程，用妹子来做一个比喻就是：一个妹子本来已经长得挺漂亮了，你为她化个妆（只要不是故意黑她），她还是那么漂亮。反之，如果一个妹子长得很搓，那么，你为她化妆，是有可能让她看上去变靓的。总之，都得到了我们想要的结果。
Cholesky分解算法我没看过，这里就没办法说了。

有书上说，Gill-Murray的Cholesky分解牛顿法是“对牛顿法改造得最彻底、最有实用价值的方法”。
看来，有时候真的是：最复杂的就是最好的，没有捷径可走啊。
文章来源：http://www.codelast.com/
『8』信赖域牛顿法
在这篇解释信赖域算法的文章里，我们说过了，信赖域算法具有整体收敛性。利用这一点，可以将其与牛顿法“合体”，创造出具有整体收敛性的信赖域牛顿法，即，我们要求的问题是：

其中，

$s$ 为位移，

$k$ 表示第k次迭代，

${g_k}$ 为梯度，

${G_k}$ 为Hesse矩阵（二阶导数矩阵），

${h_k}$ 为第k次迭代时的信赖域上界（半径）。
为什么它叫信赖域牛顿法？首先，它没有line search，求的是位移s，所以是一种信赖域算法；其次，它在求解的时候用到了梯度和二阶导数，因此是一种牛顿法。所以整体上叫它信赖域牛顿法是讲得过去的。
信赖域牛顿法有一个特点是令人欣慰的：没有要求

${G_k}$ （即Hesse矩阵）必须正定，这与前面各种算法与

${G_k}$ 正定那些纠缠不清的关系有很大不同。
至于信赖域算法的具体求解步骤是怎样的，这里就不说了，还是请大家参考这篇文章。
文章来源：http://www.codelast.com/
『9』总结
对牛顿法及其众多改进的介绍就到这里结束了。大家会看到，里面有很多定理没给出证明，有些推导可能也不够严谨，但是它们的结论基本上是正确的，如果纠结于细节，那真的是要去做理论研究，而不是应用到工程实践了。所以，学习最优化的时候，我们可以在一定程度上“着眼全局，忽略细节”，这会极大地有助于理解。
文章来源：https://www.codelast.com/
➤➤ 版权声明 ➤➤
转载需注明出处：codelast.com
感谢关注我的微信公众号（微信扫一扫）：

[原创] 再谈梯度下降法/最速下降法/Gradient descent/Steepest Descent

learnhard — Wed, 02 Apr 2014 16:23:41 +0000

当今世界，深度学习应用已经渗透到了我们生活的方方面面，深度学习技术背后的核心问题是最优化(Optimization)。最优化是应用数学的一个分支，它是研究在给定约束之下如何寻求某些因素(的量)，以使某一(或某些)指标达到最优的一些学科的总称。
梯度下降法（Gradient descent，又称最速下降法/Steepest descent），是无约束最优化领域中历史最悠久、最简单的算法，单独就这种算法来看，属于早就“过时”了的一种算法。但是，它的理念是其他某些算法的组成部分，或者说在其他某些算法中，也有梯度下降法的“影子”。例如，各种深度学习库都会使用SGD（Stochastic Gradient Descent，随机梯度下降）或变种作为其优化算法。
今天我们就再来回顾一下梯度下降法的基础知识。

『1』名字释义
在很多机器学习算法中，我们通常会通过多轮的迭代计算，最小化一个损失函数(loss function)的值，这个损失函数，对应到最优化里就是所谓的“目标函数”。
在寻找最优解的过程中，梯度下降法只使用目标函数的一阶导数信息——从“梯度”这个名字也可见一斑。并且它的本意是取目标函数值“最快下降”的方向作为搜索方向，这也是“最速下降”这个名字的来源。
于是自然而然地，我们就想知道一个问题的答案：沿什么方向，目标函数 $f(x)$ 的值下降最快呢？

函数值下降最快的方向是什么
先说结论：沿负梯度方向 $d = - {g_k}$ ，函数值下降最快。此处，我们用 $d$ 表示方向(direction)，用 $g$ 表示梯度(gradient)。
下面就来推导一下。
将目标函数 $f(x)$ 在点 ${x_k}$ 处泰勒展开（在最优化领域，这是一个常用的手段）：
$f(x) = f({x_k}) + \alpha g_k^T{d_k} + o(\alpha )$
高阶无穷小 $o(\alpha )$ 可忽略，由于我们定义了步长 $\alpha > 0$ （在ML领域，步长就是平常所说的learning rate），因此，当 $g_k^T{d_k} < 0$ 时， $f(x) < f({x_k})$ ，即函数值是的。此时 ${d_k}$ 就是一个下降方向。
但是 ${d_k}$ 具体等于什么的时候，可使目标函数值下降最快呢？
文章来源：http://www.codelast.com/
数学上，有一个非常著名的不等式：Cauchy-Schwartz不等式（柯西-许瓦兹不等式）¹，它是一个在很多场合都用得上的不等式：

$({a_1}{b_1} + {a_2}{b_2} + \cdots + {a_n}{b_n}) \le \sqrt {(a_1^2 + a_2^2 + \cdots + a_n^2)} \sqrt {(b_1^2 + b_2^2 + \cdots + b_n^2)}$

当且仅当：

$\frac{{{a_1}}}{{{b_1}}} = \frac{{{a_2}}}{{{b_2}}} = \cdots = \frac{{{a_n}}}{{{b_n}}}$

时等号成立。

由Cauchy-Schwartz不等式可知：
$\left| {d_k^T{g_k}} \right| \le \left\| {{d_k}} \right\|\left\| {{g_k}} \right\|$
当且仅当 ${d_k} = {g_k}$ 时，等号成立， $d_k^T{g_k}$ 最大（>0）。
所以 ${d_k} = - {g_k}$ 时， $d_k^T{g_k}$ 最小（<0）， $f(x)$ 下降量最大。
所以 $- {g_k}$ 是最快速下降方向。

『3』缺点
它真的如它的名字所描述的，是“最快速”的吗？从很多经典的最优化书籍你会了解到：并不是。
事实上，它只在局部范围内具有“最速”性质；对整体求最优解的过程而言，它让目标函数值下降非常缓慢。

『4』感受一下它是如何“慢”的
先来看一幅图²：

文章来源：http://www.codelast.com/
这幅图表示的是对一个目标函数寻找最优解的过程，图中锯齿状的路线就是寻优路线在二维平面上的投影。从这幅图我们可以看到，锯齿一开始比较大（跨越的距离比较大），后来越来越小；这就像一个人走路迈的步子，一开始大，后来步子越迈越小。
这个函数的表达式是这样的：
$f({x_1},{x_2}) = {(1 - {x_1})^2} + 100 \cdot {({x_2} - {x_1}^2)^2}$
它叫做Rosenbrock function³（罗森布罗克函数），是个非凸函数，在最优化领域，它可以用作一个最优化算法的performance test函数。这个函数还有一个更好记也更滑稽的名字：banana function（香蕉函数）。
我们来看一看它在三维空间中的图形：

文章来源：http://www.codelast.com/
它的全局最优点位于一个长长的、狭窄的、抛物线形状的、扁平的“山谷”中。

找到“山谷”并不难，难的是收敛到全局最优解（在 (1,1) 处）。

正所谓：世界上最遥远的距离，不是你离我千山万水，而是你就在我眼前，我却要跨越千万步，才能找到你。

文章来源：http://www.codelast.com/
我们再来看另一个目标函数

$f(x,y) = \sin \left( {\frac{1}{2}{x^2} - \frac{1}{4}{y^2} + 3} \right)\cos \left( {2x + 1 - {e^y}} \right)$ 的寻优过程⁴：

和前面的Rosenbrock function一样，它的寻优过程也是“锯齿状”的。
它在三维空间中的图形是这样的：

总而言之就是：当目标函数的等值线接近于圆(球)时，下降较快；等值线类似于扁长的椭球时，一开始快，后来很慢。

文章来源：http://www.codelast.com/
『5』为什么“慢”
从上面花花绿绿的图，我们看到了寻找最优解的过程有多么“艰辛”，但不能光看热闹，还要分析一下原因。
在最优化算法中，精确的line search满足一个一阶必要条件，即：梯度与方向的点积为零（当前点在

${d_k}$ 方向上移动到的那一点（

${x_k} + {\alpha _k}{d_k}$ ）处的梯度，与当前点的搜索方向

${d_k}$ 的点积为零）。
由此得知：

$\nabla f{({x_k} + {\alpha _k}{d_k})^T}{d_k} = 0$ ，即

$g_{k + 1}^T{d_k} = 0$
故由梯度下降法的

${d_k} = - {g_k}$ 得：

$g_{k + 1}^T{d_k} = g_{k + 1}^T( - {g_k}) = - g_{k + 1}^T{g_k} = - d_{k + 1}^T{d_k} = 0 \Rightarrow$

$d_{k + 1}^T{d_k} = 0$
即：相邻两次的搜索方向是相互直交的（投影到二维平面上，就是锯齿形状了）。
文章来源：http://www.codelast.com/
如果你非要问，为什么

$d_{k + 1}^T{d_k} = 0$ 就表明这两个向量是相互直交的？那是因为，由两向量夹角的公式：

$\cos \theta = \frac{{{d_k}^T{d_k}}}{{\left\| {{d_k}} \right\|\left\| {{d_k}} \right\|}} = \frac{0}{{\left\| {{d_k}} \right\|\left\| {{d_k}} \right\|}} = 0\;$
=>

$\theta = \frac{\pi }{2}$
可知两向量夹角为90度，因此它们直交。

『6』优点
这个被我们说得一无是处的方法真的就那么糟糕吗？其实它还是有优点的：程序简单，计算量小；并且对初始点没有特别的要求；此外，许多算法的初始/再开始方向都是最速下降方向（即负梯度方向）。
文章来源：http://www.codelast.com/
『7』收敛性及收敛速度
梯度下降法具有整体收敛性——对初始点没有特殊要求。
采用精确的line search的梯度下降法的收敛速度：线性。

引用

（1）https://en.wikipedia.org/wiki/Cauchy%E2%80%93Schwarz_inequality
（2）https://en.wikipedia.org/wiki/Gradient_descent
（3）https://en.wikipedia.org/wiki/Rosenbrock_function
（4）https://en.wikipedia.org/wiki/Gradient_descent

文章来源：https://www.codelast.com/
➤➤ 版权声明 ➤➤
转载需注明出处：codelast.com
感谢关注我的微信公众号（微信扫一扫）：

[原创] Cauchy-Schwartz(柯西-施瓦茨)不等式复习

learnhard — Wed, 02 Apr 2014 15:07:22 +0000

柯西-施瓦茨不等式，又叫柯西不等式，施瓦茨不等式，柯西-布尼亚科夫斯基-施瓦茨不等式，等等，中文名太多了，它是最重要的数学不等式之一，如下：

${({a_1}{b_1} + {a_2}{b_2} + \cdots + {a_n}{b_n})^2} \le (a_1^2 + a_2^2 + \cdots + a_n^2)(b_1^2 + b_2^2 + \cdots + b_n^2)$

两边开方，它与下面的不等式是等价的：
$({a_1}{b_1} + {a_2}{b_2} + \cdots + {a_n}{b_n}) \le \sqrt {(a_1^2 + a_2^2 + \cdots + a_n^2)} \sqrt {(b_1^2 + b_2^2 + \cdots + b_n^2)}$
文章来源：http://www.codelast.com/
当且仅当：
$\frac{{{a_1}}}{{{b_1}}} = \frac{{{a_2}}}{{{b_2}}} = \cdots = \frac{{{a_n}}}{{{b_n}}}$
时等号成立。

文章来源：https://www.codelast.com/
➤➤ 版权声明 ➤➤
转载需注明出处：codelast.com
感谢关注我的微信公众号（微信扫一扫）：

[原创] line search中的重要定理 - 梯度与方向的点积为零

learnhard — Sun, 02 Mar 2014 04:17:53 +0000

对精确的line search（线搜索），有一个重要的定理：

这个定理表明，当前点在 ${d_k}$ 方向上移动到的那一点（ ${x_k} + {\alpha _k}{d_k}$ ）处的梯度，与当前点的搜索方向 ${d_k}$ 的点积为零。

其中， ${\alpha _k}$ 是称之为“步长”的一个实数，它是通过line search算法求出来的。

为什么会有这样的结论？我们来看看。
对每一个line search过程来说，搜索方向 ${d_k}$ 已经已经是确定的了（在最优化算法中，如何找出一个合适的 ${d_k}$ 不是line search干的事情）。所以，在一个确定的 ${d_k}$ 上，要找到一个合适的 ${\alpha _k}$ ，使得 $\phi (\alpha ) = f({x_k} + \alpha {d_k})$ 这个函数满足 $f({x_k} + {\alpha _k}{d_k}) < f({x_k})$ ，这就是line search的目的。说白了，就是要找到 ${\alpha _k}$ 使 $\phi (\alpha )$ 的函数函数值变小。
文章来源：http://www.codelast.com/
但是，要小到什么程度呢？假设小到有可能的“最小”，即：
$\phi ({\alpha _k}) = f({x_k} + {\alpha _k}{d_k}) = \mathop {\min }\limits_{\alpha > 0} f({x_k} + \alpha {d_k}) = \mathop {\min }\limits_{\alpha > 0} \phi (\alpha )$
那么，我们称这样的line search为“精确的line search”——你看，这名字好贴切：我们精确地找到了函数值最小的那个点。

既然 ${x_k} + {\alpha _k}{d_k}$ 是函数值最小的那个点，那么，在该点处的一阶导数（即梯度）为零，所以我们对上式求导（ $\alpha$ 是自变量， ${x_k}$ 和 ${d_k}$ 为常量）：
$\phi '({\alpha _k}) = {\left[ {f({x_k} + {\alpha _k}{d_k})} \right]^\prime } \cdot (0 + 1 \cdot {d_k}) = {\left[ {f({x_k} + {\alpha _k}{d_k})} \right]^\prime }{d_k} = \nabla f{({x_k} + {\alpha _k}{d_k})^T}{d_k} = 0$
文章来源：http://www.codelast.com/
这就是我们前面说的定理了。

文章来源：https://www.codelast.com/
➤➤ 版权声明 ➤➤
转载需注明出处：codelast.com
感谢关注我的微信公众号（微信扫一扫）：

[原创]使用一维搜索(line search)的算法的收敛性

learnhard — Tue, 29 Oct 2013 15:24:10 +0000

在最优化领域中，有一类使用一维搜索（line search）的算法，例如牛顿法等。这类算法采用的是确定搜索方向→进行一维搜索→调整搜索方向→进行一维搜索的迭代过程来求解。那么，这类算法应该满足什么条件的时候才能收敛？本文将略为讨论一下。请务必看清本文的标题：不是讨论line search的收敛性，而是讨论使用line search的算法的收敛性。

搜索方向条件
搜索方向 ${d_k}$ 满足什么条件时算法才能收敛？谈到这个问题，首先就要定义搜索方向——要有一个“参照物”，要不然何来方向之说呢？
用 ${d_k}$ 与负梯度 $- {g_k}$ 的夹角 ${\theta _k}$ 来衡量搜索方向。我们先给出结论： ${\theta _k}$ 应满足：

http://www.codelast.com/
为了说明这个式子是怎么来的，需要先说明两个向量（ ${d_k}, - {g_k}$ 都是向量）夹角的余弦怎么计算：

http://www.codelast.com/
分子 ${ - {g_k}^T{d_k}}$ 是两个向量的点积（数量积），分母 ${\left\| {{g_k}} \right\|\left\| {{d_k}} \right\|}$ 是两个向量的范数之积，分母>0。
由上面 ${\theta _k}$ 的取值范围可知 $\cos {\theta _k} \in (0,1)$ ，即 $\cos {\theta _k} > 0$ ，因此 ${g_k}^T{d_k} < 0$
所以，根据泰勒展开式（忽略掉高阶无穷小部分）：
$f({x_k} + \alpha {d_k}) = f({x_k}) + \alpha {g_k}^T{d_k} + o(\alpha )$
我们可知， $f({x_k} + \alpha {d_k}) < f({x_k})$ ，即——下降正是最优化的目标。
所以你现在明白为什么 ${\theta _k}$ 要满足上面的条件了。
文章来源：http://www.codelast.com/
【2】两个关于收敛性的重要理论
这两个理论非常重要，作个比喻，如果你要自己设计一个使用line search技术的算法，并且要保证它能收敛的话，那么，你可能就要让你的算法符合这两个理论的要求。
其中一个理论描述了使用精确line search技术的算法的收敛性，另一个描述了使用不精确line search技术的算法的收敛性。
适用于使用精确line search技术的算法
设最优化算法产生的点序列为 $\{ {x_k}\} ,\{ f({x_k})\}$ ，对任意 ${x_0} \in {R^n}$ ，目标函数的梯度 $g(x)$ 在水平集 $L = \{ x \in {R^n}:f(x) \le f({x_0})\}$ 上，若line search的步长 ${\alpha _k}$ 满足精确搜索条件 ${\alpha _k} = \arg \mathop {\min }\limits_{\alpha > 0} f({x_k} + \alpha {d_k})$ ，搜索方向 ${d_k}$ 与 $- {g_k}$ 的夹角满足前面所说的搜索方向条件，那么，必然会发生下面3种情况中的一种：
存在某个有限的 $k$ ，使得 ${g_k} = 0$
$f({x_k}) \to - \infty$
（3） ${g_k} \to 0$
文章来源：http://www.codelast.com/
其中，（3）是最常见的情况，（1）和（2）很少出现——书上是这么说的，至于为什么，我不知道。
（3）中的 ${g_k} \to 0$ 又是个什么概念呢？大家可以想像一下二维平面上的寻优过程，一个图像类似于抛物线的函数，当搜索点逐渐向极小值点逼近时，其梯度 ${g_k}$ 正是趋于0的。

另外，上面出现了“一致连续”的概念，我不太了解，这里摘录Wiki的部分内容：
一致连续性描述定义在一定度量空间上的函数的性质。与连续性刻画函数在局部的性质不同，一致连续刻画的是函数的整体性质。一致连续是比连续更苛刻的条件。一个函数在某度量空间上一致连续，则其在此度量空间上必然连续，但反之未必成立。直观上，一致连续可以理解为，当自变量 $x$ 在足够小的范围内变动时，函数值 $y$ 的变动也会被限制在足够小的范围内。
文章来源：http://www.codelast.com/
适用于使用不精确line search技术的算法
设最优化算法产生的点序列为 $\{ {x_k}\} ,\{ f({x_k})\}$ ，对任意 ${x_0} \in {R^n}$ ，目标函数的梯度 $g(x)$ 在 ${R^n}$ 上，若line search的步长 ${\alpha _k}$ 满足Wolfe-Powell准则，搜索方向 ${d_k}$ 与 $- {g_k}$ 的夹角满足前面所说的搜索方向条件，那么，必然会发生下面3种情况中的一种：

（1）存在某个有限的

$k$ ，使得

${g_k} = 0$

（2）

$f({x_k}) \to - \infty$

（3）

${g_k} \to 0$
和上面一样，书上说，（3）是最常见的情况，（1）和（2）很少出现。对（3）的含义的解释，还是请看上面。

这里又出现了一个新名词：Lipschitz（利普希茨）连续。很抱歉，这个我还是不懂（数学不好的人泪奔）。但是从Wiki的解释，我们仍可以看出个大概来：
符合利普希茨条件的函数一致连续，也连续。直觉上，利普希茨连续函数限制了函数改变的速度。

我感觉，利普希茨连续是比“一致连续”更强的条件。我从《数学分析（上）第四章》里看到一个结论：由函数 $f(x)$ 在区间 $I$ 上Lipschitz连续可得： $f(x)$ 在 $I$ 上一致连续。

有人会说，为什么不精确的一维搜索需要一个“更强”的连续条件啊？我猜是不是由于它是不精确的，所以满足的条件就需要强一些才能达到收敛？当然，这只是直观猜测，谁来给补充一下吧。
文章来源：https://www.codelast.com/
➤➤ 版权声明 ➤➤
转载需注明出处：codelast.com
感谢关注我的微信公众号（微信扫一扫）：

[原创]信赖域(Trust Region)算法是怎么一回事

learnhard — Mon, 28 Oct 2013 15:09:32 +0000

如果你关心最优化（Optimization），你一定听说过一类叫作“信赖域（Trust Region）”的算法。在本文中，我将讲述一下信赖域算法与一维搜索的区别、联系，以及信赖域算法的数学思想，实现过程。

信赖域算法与一维搜索算法的区别、联系
最优化的目标是找到极小值点，在这个过程中，我们需要从一个初始点开始，先确定一个搜索方向 $d$ ，在这个方向上作一维搜索（line search），找到此方向上的可接受点（例如，按两个准则的判定）之后，通过一定的策略调整搜索方向，然后继续在新的方向上进行一维搜索，依此类推，直到我们认为目标函数已经收敛到了极小值点。
这种通过不断调整搜索方向，再在搜索方向上进行一维搜索的技术被很多很多算法采用，也取得了很实际的工程意义，但是，我们非要这样做不可吗？有没有另外一种途径，可以不通过“调整搜索方向→进行一维搜索”的步骤，也能求得极小值点？当然有，这就是信赖域算法干的好事。
文章来源：http://www.codelast.com/
为了说明这两种途径所实现的算法的区别和联系，请允许我做一个可能不太恰当，但是比较形象的比喻：

上图表述的是：如果把求最优解的过程比喻为“造一个零件”的过程的话，那么，使用一维搜索的那些算法和信赖域算法就像是两种不同的工艺，它们分别使用不同的技术（一维搜索&信赖域方法）——即两种不同的材料作为达成最终目标的基础。
作为一个了解最优化理论并不多的人，我从我看到过的书得到的感受就是：相比使用一维搜索的那一类算法，貌似信赖域算法们的应用还不够那么多。当然这仅仅是个人感觉，勿扔砖...
文章来源：http://www.codelast.com/
信赖域算法的基本思想
信赖域和line search同为最优化算法的基础算法，但是，从“Trust Region”这个名字你就可以看出，它是没有line search过程的，它是直接在一个region中“search”。
在一维搜索中，从 ${x_k}$ 点移动到下一个点的过程，可以描述为： ${x_k} + {\alpha _k}{d_k}$
此处 ${\alpha _k}{d_k}$ 就是在 ${d_k}$ 方向上的位移，可以记为 ${s_k}$
而信赖域算法是根据一定的原则，直接确定位移 ${s_k}$ ，同时，与一维搜索不同的是，它并没有先确定搜索方向 ${d_k}$ 。如果根据“某种原则”确定的位移能使目标函数值充分下降，则扩大信赖域；若不能使目标函数值充分下降，则缩小信赖域。如此迭代下去，直到收敛。
文章来源：http://www.codelast.com/
关于这种寻优的方法，我这里又有一个比喻，希望能帮助你理解：

要从上海火车站去人民广场，有两种方法：
①可以先定一个方向，比如先向西走，走着走着发现方向有点不对（人民广场应该是时尚地标啊，怎么越走感觉越郊区了呢），就调整一下方向，变成向东南方向走，诸如此类。

②用信赖域算法，就比如，我先划一个圈，然后在这个圈里面找离人民广场可能最接近的点，如果我的圈划得太大了，一下子就划到了莘庄（不熟悉上海的同学可以查一下地图），我一步就走到了上海南站，那还得了，马上给我回来，把圈缩小到两个地铁站的距离之内，然后再在里面找离人民广场最近的点。
文章来源：http://www.codelast.com/
【3】信赖域算法的数学模型
前面说了，根据一定的原则，可以直接确定位移，那么，这个原则是什么呢？
答：利用二次模型模拟目标函数

$f(x)$ ，再用二次模型计算出位移

$s$ 。根据位移

$s$ 可以确定下一点

$x + s$ ，从而可以计算出目标函数的下降量（下降是最优化的目标），再根据下降量来决定扩大信赖域或缩小信赖域。
那么，我该如何判定要扩大还是缩小信赖域呢？为了说明这个问题，必须先描述信赖域算法的数学模型：

文章来源：http://www.codelast.com/
第一个式子就是我们用于模拟目标函数的二次模型，其自变量为

$s$ ，也就是我们要求的位移。

${g_k}$ 为梯度，

${G_k}$ 为Hesse矩阵，袁亚湘的书上说，如果Hesse矩阵不好计算，可以利用“有限差分”来近似

${G_k}$ （不好意思我不懂），或者用拟牛顿方法来构造Hesse矩阵的近似矩阵。
第二个式子中的

${h_k}$ 是第

$k$ 次迭代的信赖域上界（或称为信赖域半径），因此第二个式子表示的就是位移要在信赖域上界范围内。此外，第二个式子中的范数是没有指定是什么范数的，例如，是2-范数还是∞-范数之类的（在实际中都有算法用这些范数）。
文章来源：http://www.codelast.com/
现在又回到了上面的问题：我该如何判定要扩大还是缩小信赖域呢？通过衡量二次模型与目标函数的近似程度，可以作出判定：
第

$k$ 次迭代的实际下降量为：

$\Delta {f_k} = {f_k} - f({x_k} + {s_k})$
第

$k$ 次迭代的预测下降量为：

$\Delta {m_k} = {f_k} - m({s_k})$
定义比值：

${r_k} = \frac{{\Delta {f_k}}}{{\Delta {m_k}}}$
这个比值可以用于衡量二次模型与目标函数的近似程度，显然

$r$ 值越接近1越好。

由此，我们就可以给出一个简单的信赖域算法了。
文章来源：http://www.codelast.com/
【4】信赖域算法的步骤
一个考虑周全的信赖域算法可能非常麻烦，为了说明其步骤，这里只说明基本的迭代步骤：

从初始点 ${x_0}$ ，初始信赖域半径 ${h_0} = \left\| {{g_0}} \right\|$ 开始迭代
到第 $k$ 步时，计算 ${g_k}$ 和 ${G_k}$
解信赖域模型，求出位移 ${s_k}$ ，计算 ${r_k}$
若 ${r_k} \le 0.25$ ，说明步子迈得太大了，应缩小信赖域半径，令 ${h_{k + 1}} = \frac{{\left\| {{s_k}} \right\|}}{4}$
若 ${r_k} \ge 0.75$ 且 $\left\| {{s_k}} \right\| = {h_k}$ ，说明这一步已经迈到了信赖域半径的边缘，并且步子有点小，可以尝试扩大信赖域半径，令 ${h_{k + 1}} = 2{h_k}$
若 $0.25 < {r_k} < 0.75$ ，说明这一步迈出去之后，处于“可信赖”和“不可信赖”之间，可以维持当前的信赖域半径，令 ${h_{k + 1}} = {h_k}$
若 ${r_k} \le 0$ ，说明函数值是向着上升而非下降的趋势变化了（与最优化的目标相反），这说明这一步迈得错得“离谱”了，这时不应该走到下一点，而应“原地踏步”，即 ${x_{k + 1}} = {x_k}$ ，并且和上面 ${r_k} \le 0.25$ 的情况一样缩小信赖域。反之，在 ${r_k} > 0$ 的情况下，都可以走到下一点，即 ${x_{k + 1}} = {x_k} + {s_k}$

文章来源：http://www.codelast.com/
【5】最重要的一种信赖域算法：Levenberg-Marquardt算法
当信赖域模型中的范数

$\left\| s \right\| \le {h_k}$ 取2-范数时（即

${\left\| s \right\|_2} \le {h_k}$ ），就得到了Levenberg-Marquardt算法（简称LM算法）的数学模型：

具体请看这里。
文章来源：http://www.codelast.com/
【6】信赖域算法的收敛性
信赖域算法具有整体收敛性。这个证明我没看（太长了），此处略。
文章来源：https://www.codelast.com/
➤➤ 版权声明 ➤➤
转载需注明出处：codelast.com
感谢关注我的微信公众号（微信扫一扫）：

[原创]用“人话”解释不精确线搜索中的Armijo-Goldstein准则及Wolfe-Powell准则

learnhard — Sun, 27 Oct 2013 14:01:02 +0000

line search（一维搜索，或线搜索）是最优化（Optimization）算法中的一个基础步骤/算法。它可以分为精确的一维搜索以及不精确的一维搜索两大类。
在本文中，我想用“人话”解释一下不精确的一维搜索的两大准则：Armijo-Goldstein准则＆ Wolfe-Powell准则。
之所以这样说，是因为我读到的所有最优化的书或资料，从来没有一个可以用初学者都能理解的方式来解释这两个准则，它们要么是长篇大论、把一堆数学公式丢给你去琢磨；要么是简短省略、直接略过了解释的步骤就一句话跨越千山万水得出了结论。
每当看到这些书的时候，我脑子里就一个反应：你们就不能写人话吗？

我下面就尝试用通俗的语言来描述一下这两个准则。

【1】为什么要遵循这些准则

由于采用了不精确的一维搜索，所以，为了能让算法收敛（即：求得极小值），人们逐渐发现、证明了一些规律，当你遵循这些规律的时候，算法就很有可能收敛。因此，为了达到让算法收敛的目的，我们就要遵循这些准则。如果你不愿意遵循这些已经公认有效的准则，而是要按自己的准则来设计算法，那么恭喜你，如果你能证明你的做法是有效的，未来若干年后，书本里可能也会出现你的名字。

文章来源：http://www.codelast.com/

【2】Armijo-Goldstein准则

此准则是在196X年的时候由Armijo和Goldstein提出的，当然我没有具体去搜过这俩人是谁。在有的资料里，你可能会看到“Armijo rule”（Armijo准则）的说法，可能是同一回事，不过，任何一个对此作出重要贡献的人都是不可抹杀的，不是么？

Armijo-Goldstein准则的核心思想有两个：①目标函数值应该有足够的下降；②一维搜索的步长α不应该太小。

这两个思想的意图非常明显。由于最优化问题的目的就是寻找极小值，因此，让目标函数函数值“下降”是我们努力的方向，所以①正是想要保证这一点。

同理，②也类似：如果一维搜索的步长α太小了，那么我们的搜索类似于在原地打转，可能也是在浪费时间和精力。

文章来源：http://www.codelast.com/
有了这两个指导思想，我们来看看Armijo-Goldstein准则的数学表达式：

其中， $0 < \rho < \frac{1}{2}$
文章来源：http://www.codelast.com/
为什么要规定 $\rho \in (0,\frac{1}{2})$ 这个条件？其实可以证明：如果没有这个条件的话，将影响算法的超线性收敛性（定义看这个链接，第4条）。在这个速度至关重要的时代，没有超线性收敛怎么活啊！(开个玩笑)
具体的证明过程，大家可以参考袁亚湘写的《最优化理论与方法》一书，我没有仔细看，我觉得对初学者，不用去管它。
第1个不等式的左边式子的泰勒展开式为：
$f({x_k} + {\alpha _k}{d_k}) = f({x_k}) + {\alpha _k}{g_k}^T{d_k} + o({\alpha _k})$
去掉高阶无穷小，剩下的部分为： $f({x_k}) + {\alpha _k}{g_k}^T{d_k}$
而第一个不等式右边与之只差一个系数 $\rho$
我们已知了 ${g_k}^T{d_k} < 0$ （这是 ${d_k}$ 为下降方向的充要条件），并且 $\rho \in (0,\frac{1}{2})$ ，因此，1式右边仍然是一个比 $f({x_k})$ 小的数，即：
$f({x_k}) + {\alpha _k}\rho {g_k}^T{d_k} < f({x_k})$
也就是说函数值是下降的（下降是最优化的目标）。
文章来源：http://www.codelast.com/
由于 $\rho \in (0,\frac{1}{2})$ 且 ${g_k}^T{d_k} < 0$ （ ${d_k}$ 是一个下降方向的充要条件），故第2个式子右边比第1个式子右边要小，即：
${\alpha _k}(1 - \rho ){g_k}^T{d_k} < {\alpha _k}\rho {g_k}^T{d_k} < 0$
如果步长 $\alpha$ 太小的话，会导致这个不等式接近于不成立的边缘。因此，式2就保证了 $\alpha$ 不能太小。
(4)我还要把很多书中都用来描述Armijo-Goldstein准则的一幅图搬出来说明一下（亲自手绘）：

http://www.codelast.com/
横坐标是 $\alpha$ ，纵坐标是 $f$ ，表示在 ${x_k},{d_k}$ 均为常量、 $\alpha$ 为自变量变化的情况下，目标函数值随之变化的情况。
之所以说 ${x_k},{d_k}$ 均为常量，是因为在一维搜索中，在某一个确定的点 ${x_k}$ 上，搜索方向 ${d_k}$ 确定后，我们只需要找到一个合适的步长 $\alpha$ 就可以了。
当 $x$ 为常量， $\alpha$ 为自变量时， $f(x + \alpha d)$ 可能是非线性函数（例如目标函数为 $y = {x^2}$ 时）。因此图中是一条曲线。
右上角的 $f({x_k} + \alpha {d_k})$ 并不是表示一个特定点的值，而是表示这条曲线是以 $\alpha$ 为自变量、 ${x_k},{d_k}$ 为常量的函数图形。
当 $\alpha = 0$ 时，函数值为 $f({x_k})$ ，如图中左上方所示。水平的那条虚线是函数值为 $f({x_k})$ 的基线，用于与其他函数值对比。
$f({x_k}) + {\alpha _k}\rho {g_k}^T{d_k}$ 那条线在 $f({x_k})$ 下方（前面已经分析过了，因为 ${g_k}^T{d_k} < 0$ ）， $f({x_k}) + {\alpha _k}(1 - \rho ){g_k}^T{d_k}$ 又在 $f({x_k}) + {\alpha _k}\rho {g_k}^T{d_k}$ 的下方（前面也已经分析过了），所以Armijo-Goldstein准则可能会把极小值点（可接受的区间）判断在区间bc内。显而易见，区间bc是有可能把极小值排除在外的（极小值在区间ed内）。
所以，为了解决这个问题，Wolfe-Powell准则应运而生。
文章来源：http://www.codelast.com/
【3】Wolfe-Powell准则
在某些书中，你会看到“Wolfe conditions”的说法，应该和Wolfe-Powell准则是一回事——可怜的Powell大神又被无情地忽略了...
Wolfe-Powell准则也有两个数学表达式，其中，第一个表达式与Armijo-Goldstein准则的第1个式子相同，第二个表达式为：

这个式子已经不是关于函数值的了，而是关于梯度的。
此式的几何解释为：。
上面的图已经标出了 $\sigma g_k^T{d_k}$ 那条线（即 $e$ 点处的切线），而初始点（ $\alpha = 0$ 的点）处的切线是比 $e$ 点处的切线要“斜”的，由于 $\sigma \in (\rho ,1)$ ，使得 $e$ 点处的切线变得“不那么斜”了——不知道这种极为通俗而不够严谨的说法，是否有助于你理解。
这样做的结果就是，我们将极小值包含在了可接受的区间内（ $e$ 点右边的区间）。
文章来源：http://www.codelast.com/
Wolfe-Powell准则到这里还没有结束！在某些书中，你会看到用另一个所谓的“更强的条件”来代替(3)式，即：

这个式子和(3)式相比，就是左边加了一个绝对值符号，右边换了一下正负号（因为 $g_k^T{d_k} < 0$ ，所以 $- \sigma g_k^T{d_k} > 0$ ）。
这样做的结果就是：可接受的区间被限制在了 $[b,d]$ 内，如图：

图中红线即为极小值被“夹击”的生动演示。
文章来源：https://www.codelast.com/
➤➤ 版权声明 ➤➤
转载需注明出处：codelast.com
感谢关注我的微信公众号（微信扫一扫）：

[原创]漫谈line search中的Fibonacci搜索与黄金比例搜索

learnhard — Sun, 27 Oct 2013 04:37:21 +0000

在一维搜索（line search）中，Fibonacci搜索与黄金比例搜索是一对“亲兄弟”，因为它们都是用分割区间的方法来求极小值，所以过程是相似的。本文就随意聊一下它们的区别与联系。

从名字上看，Fibonacci搜索算法当然与Fibonacci数列有关。
Fibonacci数列用如下式子表达：
${F_0} = 0,\;{F_1} = 1,\;{F_n} = {F_{n - 1}} + {F_{n - 2}}$
即：第1个数为0，第2个数为1，后面的每个数都是前两个数之和，例如 0, 1, 1, 2, 3, 5, 8, 13, 21, 34, 55, 89, …
文章来源：http://www.codelast.com/
Fibonacci搜索算法就是利用了该数列进行区间的分割。与黄金比例搜索算法每次分割区间时使用固定的比例（0.618）不同，Fibonacci搜索算法的区间缩短率是不固定的 $\frac{{{F_{i - 1}}}}{{{F_i}}}$ 。

Fibonacci搜索算法要先确定搜索点的个数，并且在用分割方法求一维极小化问题时，Fibonacci是最优的策略（袁亚湘的书上说这个是可以证明的，但我没看怎么证明）。但跟Golden Section Search相比，由于Golden Section Search简单，所以更常用。并且，在实际中，为了能达到更快的收敛速度，通常会让Golden Section Search配合使用逆抛物内插或其他超线性收敛技术（例如复杂的Brent算法，就是结合了黄金分割+逆抛物内插的可靠line search算法），所以，也不是非用Fibonacci不可。
文章来源：http://www.codelast.com/
最后，Fibonacci搜索算法是线性收敛的，它的极限形式正是Golden Section Search，即：
$\mathop {\lim }\limits_{n \to \infty } \frac{{{F_{n - 1}}}}{{{F_n}}} = \frac{{\sqrt 5 - 1}}{2} \approx 0.618$

文章来源：https://www.codelast.com/
➤➤ 版权声明 ➤➤
转载需注明出处：codelast.com
感谢关注我的微信公众号（微信扫一扫）：

[原创]一维搜索中的划界(Bracket)算法

learnhard — Sat, 26 Oct 2013 15:30:03 +0000

很多最优化算法需要用到一维搜索（line search）子算法，而在众多的一维搜索算法中，大多数都要求函数被限制在一个内，也就是说，在进行一维搜索的区间内，函数是一个。尽管有一些改进的一维搜索算法（例如 $H\ddot opfinger$ 建议的一种改进过的黄金搜索算法）可以处理函数非单峰的情况，但是，在没有确定函数在一个区间内是单峰的之前，即使在搜索过程中，函数值持续减小，我们也不能说极小值是一定存在的，因此，找出一个区间，在此区间之内使函数是单峰的，这个过程是必需的（我更倾向于接受这种观点）。这个过程就叫作划界（Bracket）。Bracket这个单词是括号的意思，很形象——用括号包住一个范围，就是划界。在某些书中，划界算法也被称为进退法。

【1】什么是单峰区间？什么是单峰函数？
从字面上理解，“单峰”即函数只有一个峰，如下图所示（在区间[-8,8]内是单峰的）：

文章来源：http://www.codelast.com/
而下面的这个函数，在区间[2,14]内就不是单峰函数了：

现在，我们再用数学的话来定义一下单峰区间和单峰函数：
$[a,b]$ 为 $R$ 的子集，存在 ${\alpha ^*} \in [a,b]$ ，使得 $f(\alpha )$ 在 $[a,{\alpha ^*}]$ 上严格单调减，在 $[{\alpha ^*},b]$ 上严格单调增，则称 $[a,b]$ 是 $f(\alpha )$ 的单峰区间， $f(\alpha )$ 是 $[a,b]$ 上的单峰函数。
文章来源：http://www.codelast.com/
【2】“划界”是如何实现的
方法是：寻找使函数值达到“高→低→高”的3个点。

如上图所示，当我们找到 $a,b,c$ 这样3个点的时候，它们就能确定一个单峰区间了。
一定有人会有疑问说：这不一定，万一 $b,c$ 之间还有一个峰怎么办？确实，这里举的例子并不是一个完善的例子，在一个实用的划界程序中，它所做的考虑会非常多，各种意外情况都要处理，此处只是为了说明“划界”是怎么一回事，以及一个最简单的划界程序是怎么做的。
文章来源：http://www.codelast.com/
与各种教科书上仅有令人讨厌的公式说明不同（从不考虑读者的感受），我把几个简单的划界步骤画成了几幅图，我觉得有小学文凭已经足够理解了（一图胜千言）：
①：

http://www.codelast.com/
起始点为 ${x_0}$ ，假设一开始向右寻找，步长为 $h$ ，图中的 $k$ 表示迭代的次数。
则第一点挪动到了 ${x_1} = {x_0} + h$ ，计算函数值，发现 $f({x_1}) < f({x_0})$ ，很好，“高→低→高”的3点中，我们已经有了两点。
然后下一点我们挪动到 ${x_2} = {x_1} + t \times h,\;t > 1$ ，这里用加倍系数 $t$ 来乘以步长是为了加速搜索的过程。再计算函数值，发现 $f({x_2}) > f({x_1})$ ，很好，我们已经找到了“高→低→高”的3点。任务完成， $[a,b]$ 即为所求区间。
总结一下步骤就是：
${x_1} = {x_0} + h$
${x_2} = {x_1} + t \times h$
文章来源：http://www.codelast.com/
②：
如果运气没那么好，例如：

文章来源：http://www.codelast.com/
即：
和①一样，搜索也经历了 ${x_0},{x_1},{x_2}$ 这几个点，与①不同的是，到了 ${x_2}$ 点之后，我们发现其函数值仍然小于 ${x_1}$ 点处的函数值，也就是说，我们还没有找到“高→低→高”的3点。
于是我们继续放大步长，令 ${x_3} = {x_2} + t \times t \times h$ ，再计算函数值，发现 $f({x_3}) > f({x_2})$ ，很好，我们已经找到了“高→低→高”的3点。任务完成， $[a,b]$ 即为所求区间。
总结一下步骤就是：
${x_1} = {x_0} + h$
${x_2} = {x_1} + t \times h$ （加大步长）
${x_3} = {x_2} + t \times t \times h$ （继续加大步长）
文章来源：http://www.codelast.com/
③：
①是向右搜索，如果我们运气更差一些，一开始就是个错误（应该向左搜索），怎么办？

http://www.codelast.com/
如上图，起始点为 ${x_0}$ ，第一个挪动到的点起始点为 ${x_1}$ ，而 ${x_1}$ 处的函数值竟然比起始点 ${x_0}$ 处的函数值要大（函数值不降反升）。于是我们可以向左搜索（将步长 $h$ 设为负值），并且把 ${x_1}$ 挪到 ${x_0}$ ，继续按①的节奏进行下去。
总结一下步骤就是：
${x_1} = {x_0} + h$ （发现函数值不降反升）
$h' = - h$ （步长设为负值，向左搜索）
${x_1} = {x_0}$ （重置 ${x_1}$ 点）
${x_2} = {x_1} + h'$
${x_3} = {x_2} + t \times h'$ （加大步长，函数值回升，停止搜索）
文章来源：http://www.codelast.com/
【3】加快划界的速度：逆抛物内插
有没有什么办法可以加快划界的速度呢？有，逆抛物内插（Inverse Parabolic Interpolation）就是一种技术，它可以使得划界算法超线性收敛。
为了解释什么是逆抛物内插，这里用书上的一幅图来讲解：

文章来源：http://www.codelast.com/
如图，实线为目标函数曲线。在该曲线上，如果我们要尽快逼近极小值点，可以这样做：通过①②③三点作一条抛物线（图中粗虚线所示），可以计算出该抛物线的极小值点的横坐标，从而可以找到同一横坐标下，目标函数上的点，即点④；然后再过①②④三点作一条抛物线（图中细虚线所示），可以计算出该抛物线的极小值点的横坐标，从而又可以找到同一横坐标下，目标函数上的点，即点⑤。这样，我们就很快地逼近了极小值。

那么，过三点的抛物线，其极小值点的横坐标怎么求？
已知函数 $f(x)$ ，过 $f(a),f(b),f(c)$ 三点的抛物线，其极小值点的横坐标 $x$ 为：

文章来源：http://www.codelast.com/
注：为什么叫“”？因为上面的方法是用来求横坐标 $x$ ，而不是求 $y$ 的。

有人会问：划界的目标就是找到3个点，而你怎么会预先知道3个点的坐标，从而进行逆抛物内插？这不是因果倒置了吗？
其实，这里的三个点，并不是划界的结果，而是初始的猜测，通过初始的猜测点进行逆抛物内插，再根据内插点的不同情况，分别作不同的处理，最终可以找到划界的3个点。
例如，我们总要知道两个初始点 $a,b$ 吧？好吧，如果你已知的真的只有一个点 $a$ ，那么 $b$ 就随便取比 $a$ 大一点的值好了，这也能凑够两个点啊。通过这两个点，可以通过 $c = b + COE \times (b - a)$ 来得到猜测的第一个 $c$ 点（这里的 $COE$ 表示一个系数，例如1.618），从而可以通过这3点开始逆抛物内插。
文章来源：http://www.codelast.com/
一个实用的划界程序还是挺复杂的——这里的复杂是比较于上面陈述的最简单的划界算法来说的，因为要保证程序在很多“意外情况”下都能正确运行，必须做很多工作。这里就不分析具体的程序了，大家可以到网上找来看一下。
文章来源：https://www.codelast.com/
➤➤ 版权声明 ➤➤
转载需注明出处：codelast.com
感谢关注我的微信公众号（微信扫一扫）：

[原创]最优化/Optimization文章合集

learnhard — Sat, 26 Oct 2013 05:11:40 +0000

最优化（Optimization）是应用数学的一个分支，它是研究在给定约束之下如何寻求某些因素(的量)，以使某一(或某些)指标达到最优的一些学科的总称。我一直对最优化比较感兴趣，所以写过一些相关的笔记，可能有不正确的地方，但请学术派、技术流们多多包涵。

➤ 拟牛顿法/Quasi-Newton，DFP算法/Davidon-Fletcher-Powell，及BFGS算法/Broyden-Fletcher-Goldfarb-Shanno

➤ 最速下降法/steepest descent，牛顿法/newton，共轭方向法/conjugate direction，共轭梯度法/conjugate gradient 及其他

➤ Ridders求导算法

➤ 选主元的高斯-约当（Gauss-Jordan）消元法解线性方程组/求逆矩阵
文章来源：http://www.codelast.com/
➤ 关于最优化/Optimization 的一些概念解释

➤ 最小二乘的理论依据

➤ Powell共轭方向集方法(Powell's Conjugate Direction Method)的实现

➤ 黄金比例搜索算法（Golden Section Search）的实现

➤ LM(Levenberg-Marquard)算法的实现
文章来源：http://www.codelast.com/
➤ 一维搜索中的划界(Bracket)算法

➤ 漫谈line search中的Fibonacci搜索与黄金比例搜索

➤ 用“人话”解释不精确线搜索中的Armijo-Goldstein准则及Wolfe-Powell准则

➤ 信赖域(Trust Region)算法是怎么一回事

➤ 使用一维搜索(line search)的算法的收敛性

➤ line search中的重要定理 - 梯度与方向的点积为零

➤ Cauchy-Schwartz(柯西-许瓦兹)不等式复习

➤ 再谈最速下降法/梯度法/Steepest Descent/Gradient descent

➤ 再谈牛顿法/Newton's Method In Optimization

➤ 再谈共轭方向法/Conjugate Direction Method In Optimization

➤ To be added...

文章来源：https://www.codelast.com/
➤➤ 版权声明 ➤➤
转载需注明出处：codelast.com
感谢关注我的微信公众号（微信扫一扫）：

[原创]拟牛顿法/Quasi-Newton，DFP算法/Davidon-Fletcher-Powell，及BFGS算法/Broyden-Fletcher-Goldfarb-Shanno

learnhard — Tue, 14 Jun 2011 17:44:56 +0000

在最优化领域，有几个你绝对不能忽略的关键词：拟牛顿、DFP、BFGS。名字很怪，但是非常著名。下面会依次地说明它们分别“是什么”，“有什么用” 以及 “怎么来的”。

但是在进入正文之前，还是要先提到一个概念上的区别，否则将影响大家的理解：其实DFP算法、BFGS算法都属于拟牛顿法，即，DFP、BFGS都分别是一种拟牛顿法。

先从拟牛顿法（Quasi-Newton）说起。这个怪怪的名词其实很形象：这是一种”模拟“的牛顿法。那么，它模拟了牛顿法的哪一部分呢？答：模拟的就是牛顿法中的搜索方向（可以叫作“牛顿方向”）的生成方式。

牛顿法是什么？本文是基于你已经知道牛顿法的原理的假设，如果你不清楚，那么可以看我这篇文章，里面非常简单而又清晰地描述了牛顿法的原理。

了解了牛顿法的原理，我们就知道了：在每一次要得到新的搜索方向的时候，都需要计算Hesse矩阵（二阶导数矩阵）。在自变量维数非常大的时候，这个计算工作是非常耗时的，因此，拟牛顿法的诞生就有意义了：它采用了一定的方法来构造与Hesse矩阵相似的正定矩阵，而这个构造方法计算量比牛顿法小。这就是对它“有什么用”的回答了。

（1）DFP算法

下面，就从DFP算法来看看“拟牛顿”是如何实现的（DFP算法是以Davidon、Fletcher、Powell三位牛人的名字的首字母命名的）。

前面说了，Hesse矩阵在拟牛顿法中是不计算的，拟牛顿法是构造与Hesse矩阵相似的正定矩阵，这个构造方法，使用了目标函数的梯度（一阶导数）信息和两个点的“位移”（X_k-X_k-1）来实现。有人会说，是不是用Hesse矩阵的近似矩阵来代替Hesse矩阵，会导致求解效果变差呢？事实上，效果反而通常会变好。有人又会问为什么？那么就简要地说一下——

由牛顿法的原理可知如下几个等式：

若最后一个等式子的最左边 < 0，即，就是直观概念上的“沿方向d上，目标函数值下降”的表达。而在逐步寻找最优解的过程中，我们是要求目标函数值下降的，因此，应该有-(X-X_i)A(X-X_i) < 0，也即 (X-X_i)A(X-X_i) > 0。这表明矩阵A是正定的。而在远离极小值点处，Hesse矩阵一般不能保证正定，使得目标函数值不降反升。而拟牛顿法可以使目标函数值沿下降方向走下去，并且到了最后，在极小值点附近，可使构造出来的矩阵与Hesse矩阵“很像”了，这样，拟牛顿法也会具有牛顿法的二阶收敛性。

文章来源：http://www.codelast.com/

由于涉及到Hesse矩阵（二阶导数矩阵），我们当然要从目标函数 f(X) 的泰勒展开式说开去。与最优化理论中的很多问题一样，在这里，我们依然要假设目标函数可以用二次函数进行近似（实际上很多函数都可以用二次函数很好地近似）：

忽略高阶无穷小部分，只看前面的3项，其中A为目标函数的Hesse矩阵（二阶导数矩阵）。此式两边对X求导得：

于是，当 X=X_i 时，将[2]式两边均左乘(A_i+1)^-1，有：

上式左右两边近似相等，但如果我们把它换成等号，并且用另一个矩阵H来代替上式中的A^-1，则得到：

文章来源：http://www.codelast.com/

这个方程，就是拟牛顿方程，其中的矩阵H，就是Hesse矩阵的逆矩阵的一个近似矩阵。但是，从初始的H₀开始，如何得到每一步迭代过程中需要的H₁，H₂，……呢？在迭代过程中生成的矩阵序列H₀，H₁，H₂，……中，每一个矩阵H_i+1，都是由前一个矩阵H_i修正得到的，这个修正方法有很多种，这里只说DFP算法的修正方法。设：

然后又有问题：矩阵E怎么求？再设：

其中，m和n均为实数，v和w均为N维向量。将[6]代入[5]式，再将[5]式代入[4]式，可得：

文章来源：http://www.codelast.com/

[8]式与[7]式完全相同，只不过用简化的记号重写了一下。如果求出了m，n，v，w，就可以知道[6]式怎么求，从而进一步知道[5]式怎么求，从而我们的问题就彻底解决了。符合[7]这个方程的v，w可能有很多，但是我们有没有可能找到v，w的一个“特例”，使之符合这个等式呢？仔细观察一下，是可以找到的：[7]式的右边两个向量相减的结果，是一个n×1的向量，因此，等式左边的计算结果当然也是一个n×1的向量（每一项都是一个n×1的向量），所以我们把[7]式写成了[8]式的样子，可以看到，其中的第二、第三项中的括号里的向量的点积均为实数，这里，可以使第一个括号中的mv^Tq_i值为1，使第二个括号中的nw^Tq_i值为-1，这样的话，v只要取s_i，w只要取H_iq_i，就可以使[8]式成立了。的确，这种带有一点猜测性质的做法，确实可以让我们找到一组适合的m，n，v，w值。

所以，我们得到的m，n，v，w值如下：

现在我们几乎大功告成了：将[8]~[11]代入[6]式，然后再将[6]代入[5]式，就得到了Hesse矩阵的逆矩阵的近似阵H的计算方法：

在上面的推导过程中，有人可能觉得有点无厘头：为什么[6]式要那样假设，是怎么想到的？我能给出的答案是：这一点我也没想明白。如果你知道，请告诉我，非常感谢。某些书上经常写类似于“很显然，XXX”之类的话，从一个定理直接得出了一个让人摸不着头脑的结论，而作为我这样比较笨的人来说，我觉得写书的很多专家们认为“很显然”的东西一点也不“显然”，甚至于有时候，我觉得那就像凤姐突然变成了范冰冰一样——一下子变出来了一个漂亮的结论，难以相信。所以这也是为什么我花费了很多时间，来把一些“很显然”的东西记下来，写明白的原因了。对于大多数牛人，他们需要的当然不是这种思维跨度这么小的文章，而是那种从地球可以一下子飞到火星的文章。所以，我写的东西不适合于水平高的人看，我只期望能帮助一小部分人就知足了。

文章来源：http://www.codelast.com/

说到这里，那么到底什么是DFP算法呢？上面的矩阵H的计算方法就是其核心，下面再用简单的几句话描述一下DFP算法的流程：

已知初始正定矩阵H₀，从一个初始点开始（迭代），用式子来计算出下一个搜索方向，并在该方向上求出可使目标函数极小化的步长α，然后用这个步长，将当前点挪到下一个点上，并检测是否达到了程序中止的条件，如果没有达到，则用上面所说的[13]式的方法计算出下一个修正矩阵H，并计算下一个搜索方向……周而复始，直到达到程序中止条件。

有人会说，上面那些乱七八糟的都是搞什么啊，猜来猜去的就折腾出了一个公式，然后就确定这公式能用了？就不怕它在迭代的时候根本无法寻找到目标函数的极小值？正因为有这些疑问，所以在这里，还要提及一个非常重要的问题：我们通过带有猜测性质的做法，得到了矩阵H的计算公式，但是，这个修正过的矩阵，能否保持正定呢？前面已经说了，矩阵H正定是使目标函数值下降的条件，所以，它保持正定性很重要。可以证明，矩阵H保持正定的充分必要条件是：

并且，在迭代过程中，这个条件也是容易满足的。此结论的证明并不复杂，但是为了不影响本文的主旨，这里就没有必要写出来了。总之，我觉得作为一个最优化的学习者来说，首先要关注的是不是这些细节问题，而是先假设这些算法都适用，然后等积累到一定程度了，再去想“为什么能适用”的问题。

（2）BFGS算法

在上面的DFP算法的推导中，我们得到了矩阵H的计算公式，而BFGS算法和它有点像，但是比它形式上复杂一点。尽管它更复杂，但是在BFGS算法被Broyden，Fletcher，Goldfarb，Shanno四位牛人发明出来到现在的40多年时间里，它仍然被认为是最好的拟牛顿算法。历史总是这样，越往后推移，人们要超越某种技术所需的时间通常就越长。但是我们很幸运地可以站在巨人的肩膀上，从而可以在使用前人已经发明的东西的基础上感叹一声：这玩意太牛了。

好吧，又扯远了…… 回到中心主题，看看在BFGS算法中，与上面的[13]式一样的矩阵H是如何计算的：

在[14]式中，最后一项（深蓝色的部分）就是BFGS比DFP多出来的东西。其中，w为一个n×1的向量。我们看到，由于向量w的表达式太长，所以没有把它直接写在[14]式中，而是单独列在了[15]式里。

可能[14]式一看就让人头晕，所以先来弱弱地解释一下这个式子的计算结果（如果你觉得好雷人，那么请直接无视）：ww^T是一个n×1的向量与一个1×n的向量相乘，结果为一个n×n的矩阵，而[14]式中最后一项里，除了ww^T之外的那一部分是（1×n）向量、n×n矩阵、n×1向量相乘，结果为一实数，因此[14]式最后一项结果为一个n×n矩阵，这与[14]式等号左边的矩阵H为n×n矩阵一致。这一点没有问题了。

在目标函数为二次型（“在数学中，二次型是一些变量上的二次齐次多项式”）时，无论是DFP还是BFGS——也就是说，无论[14]式中有没有最后一项——它们均可以使矩阵H在n步之内收敛于A^-1。

文章来源：http://www.codelast.com/

延伸阅读：BFGS有一个变种（我不知道这样称呼是否正确），叫作“Limited-memory BFGS”，简称“L-BFGS”或“LM-BFGS”（这里的“LM”与Levenberg-Marquard算法没有关系），从它的名字上看，你肯定能猜到，使用L-BFGS算法来编写程序时，它会比BFGS算法占用的内存小。从前面的文章中，我们知道，BFGS在计算过程中要存储一个n×n的矩阵，当维数n很大的时候，这个内存占用量会很大——例如，在10万维的情况下，假设矩阵H中的元素以double来存储，那么，内存占用即为100000×100000×8÷1024÷1024÷1024≈74.5（GB），这太惊人了，一般的服务器几乎无法承受。所以，使用L-BFGS来降低内存使用量在某些情况下是非常有意义的。

关于L-BFGS的英文解释，请点击这个Wiki链接。由于我还没有深入学习L-BFGS，所以没办法在这里详细叙述了。

（全文完）
文章来源：https://www.codelast.com/
➤➤ 版权声明 ➤➤
转载需注明出处：codelast.com
感谢关注我的微信公众号（微信扫一扫）：

[原创]最速下降法/steepest descent，牛顿法/newton，共轭方向法/conjugate direction，共轭梯度法/conjugate gradient 及其他

learnhard — Sun, 29 May 2011 19:52:25 +0000

在最优化的领域中，这“法”那“法”无穷多，而且还“长得像”——名字相似的多，有时让人觉得很迷惑。

在自变量为一维的情况下，也就是自变量可以视为一个标量，此时，一个实数就可以代表它了，这个时候，如果要改变自变量的值，则其要么减小，要么增加，也就是“非左即右“，所以，说到“自变量在某个方向上移动”这个概念的时候，它并不是十分明显；而在自变量为n（n≥2）维的情况下，这个概念就有用了起来：假设自变量X为3维的，即每一个X是（x₁, x₂, x₃）这样的一个点，其中x₁，x₂和x₃分别是一个实数，即标量。那么，如果要改变X，即将一个点移动到另一个点，你怎么移动？可以选择的方法太多了，例如，我们可以令x₁，x₂不变，仅使x₃改变，也可以令x₁，x₃不变，仅使x₂改变，等等。这些做法也就使得我们有了”方向“的概念，因为在3维空间中，一个点移动到另一个点，并不是像一维情况下那样“非左即右”的，而是有“方向”的。在这样的情况下，找到一个合适的”方向“，使得从一个点移动到另一个点的时候，函数值的改变最符合我们预定的要求（例如，函数值要减小到什么程度），就变得十分有必要了。

文章来源：http://www.codelast.com/

前奏已经结束，下面进入正题。

【1】最速下降法（或：梯度法）

加注：我又写了一篇关于最速下降法的文章，更详细，请看这里。

很形象，也许你的脑子里一闪而过的，就是：取可以让目标函数值最快速“下降”的方法？差不多是这么回事。严谨地说：以负梯度方向作为极小化方法的下降方向，这种方法就是最速下降法。

为什么是负梯度方向使目标函数值下降最快？以前我也只是死记硬背，背出来的东西虽然有用，终究还是令人糊涂的。所以有必要写出它”为什么“的理由：

我们正在讨论的是”n维空间中的一个点移动到另一个点之后，目标函数值的改变情况“，因此，先直接写出代表最终的目标函数值的数学表达式：

：代表第k个点的自变量（一个向量）。

：单位方向（一个向量），即 |d|=1。

：步长（一个实数）。

：目标函数在X_k这一点的梯度（一个向量）。

：α的高阶无穷小。

文章来源：http://www.codelast.com/

显然，这个数学表达式是用泰勒公式展开得到的，样子有点难看，所以对比一下自变量为一维的情况下的泰勒展开式

就知道多维的情况下的泰勒展开式是怎么回事了。

在[1]式中，高阶无穷小可以忽略，因此，要使[1]式取到最小值，应使取到最小——这是两个向量的点积（数量积），何种情况下其值最小呢？来看两向量的夹角θ的余弦是如何定义的：

假设向量与负梯度的夹角为θ，我们便可求出点积的值为：

可见，θ为0时，上式取得最小值。也就是说，取时，目标函数值下降得最快，这就是称负梯度方向为“最速下降”方向的由来了。

文章来源：http://www.codelast.com/

最速下降法的收敛性：对一般的目标函数是整体收敛的（所谓整体收敛，是指不会非要在某些点附近的范围内，才会有好的收敛性）。

最速下降法的收敛速度：至少是线性收敛的。

【2】牛顿法

上面的最速下降法只用到了梯度信息，即目标函数的一阶导数信息，而牛顿法则用到了二阶导数信息。

在点处，对目标函数进行泰勒展开，并只取二阶导数及其之前的几项（更高阶的导数项忽略），得：

：目标函数在X_k这一点的梯度（一个向量）。

：目标函数在X_k这一点的Hesse矩阵（二阶导数矩阵），这里假设其是连续的。

由于极小值点必然是驻点，而驻点是一阶导数为0的点，所以，对 r(X) 这个函数来说，要取到极小值，我们应该分析其一阶导数。对X求一阶导数，并令其等于0：

当G_k的逆矩阵存在，也即G_k为非奇异矩阵的时候，将上式两边都左乘G_k的逆矩阵G_k^-1，得：

到了这一步，已经很明显了。这个式子表达了下一点的计算方法：X_k在方向d上按步长1（1×d = d）移动到点X。所以我们知道方向d怎么求了：

如果你觉得上式有点奇怪：为什么都得到了d的表达式，还要再弄出一个G_kd=-g_k？那么我说：因为在实际应用中，d并不是通过G_k^-1与g_k相乘来计算出的（因为我们并不知道逆矩阵G_k^-1是什么），而是通过解方程组G_kd=-g_k求出的。这个解方程组的过程，其实也就可能是一个求逆矩阵的过程。关于解此方程组的方法，可以参考这一篇文章。关键时刻，概念清晰很重要。

有人说，那么方程组可能无解呢？没错，方程组可能是奇异的，在这种情况下，就需要用到其他的修正技术，来获取搜索方向了，本文不谈。

文章来源：http://www.codelast.com/

上面关于牛顿法的各种推导可能让你觉得杂乱无章，但实际上它们就是牛顿法的基本步骤：每一步迭代过程中，通过解线性方程组得到搜索方向，然后将自变量移动到下一个点，然后再计算是否符合收敛条件，不符合的话就一直按这个策略（解方程组→得到搜索方向→移动点→检验收敛条件）继续下去。

牛顿法的收敛性：对一般问题都不是整体收敛的（只有当初始点充分接近极小点时，才有很好的收敛性）。

牛顿法的收敛速度：二阶收敛。因此，它比最速下降法要快。

【3】共轭方向法

加注：我又写了一篇关于共轭方向法的文章，更详细，请看这里。
上面的方法，前、后两次迭代的方向并没有特别的相关要求，而共轭方向法则有了——它要求新的搜索方向与前面所有的搜索方向是共轭的。由于搜索方向是向量，所以也就是说，这些向量是满足共轭条件的：

其中，m≠n，d_m和d_n分别为两个向量（搜索方向），G为对称正定矩阵。

对于“共轭”，我有一个自己“捏造”出来的说法，来帮助你记忆它的含义：看到“共轭”，就想到“共遏”，即“互相遏制”，这不，两个向量中间夹着一个矩阵互相发力，结果谁也占不到便宜——积为0。

共轭方向法也是只利用了目标函数的梯度信息，即一阶导数信息，不用计算Hesse矩阵，使得其计算量比牛顿法小很多。

但是，怎么在每一步迭代的过程中，都得到若干个两两共轭的搜索方向？Powell共轭方向集方法是一个选择，它可以构造出若干个两两共轭的方向。不过，它本身也有一些缺陷：在构造共轭方向的过程中，各方向会逐渐变得线性相关，这就达不到“共轭”的要求了。所以，有很多种对Powell算法进行修正的策略被人们应用到了实际场景中，现在说到Powell方法，应该或多或少都包含了那些修正策略吧（我的感觉）。

特别值得一提的是，在共轭方向法中，新搜索方向的确定，是要满足“下降”条件的，即方向与梯度之积<0：

是不是意味着目标函数值下降量越大，这个方向就越可取呢？不是。在人们已经发现的修正Powell算法的有效方法中，有一种方法是舍弃目标函数值下降最大的方向——这看似不合理的做法恰恰蕴含了合理的结果：放弃目标函数值下降最大的方向能更好地避免各方向线性相关。关于这一点，这里就不详述了。

一句话总结共轭方向法的过程：选定搜索方向d，使之满足共轭条件以及下降条件，在此搜索方向上通过精确线搜索确定移动的步长，然后将当前点移动到下一点，再重新选定搜索方向，周而复始，直到满足终止条件。

文章来源：http://www.codelast.com/

共轭方向法的收敛性：对二次函数，最多在n步（n为自变量的维数）内就可找到其极小值点。对一般的非二次函数，经适当修正后，也可以达到相同的效果。

共轭方向法的收敛速度：比最速下降法快，比牛顿法慢。

【4】共轭梯度法

注意：下面那些长长的推导过程，其实是有部分错误的，当年我认为我弄懂了，其实到了某个推导步骤以后，我就理解错了，只不过我以为我对了，我即将在另一篇文章里写上我认为正确的推导，对不住大家了...
“共轭梯度法”是一种特殊的“共轭方向法”。既然叫共轭梯度法，它与梯度必然是有关系的。共轭方向法与梯度也有关系——共轭方向法利用了目标函数的梯度信息（梯度与方向的积满足“下降”条件）。共轭梯度法与此关系有所区别：用当前点的负梯度方向，与前面的搜索方向进行共轭化，以得到新的搜索方向。

具体来说，这个新的搜索方向是怎么计算出来的呢？推导起来比较麻烦，下面就慢慢道来。

首先，需要说明共轭梯度法的一个理论基础（记为T1）：在迭代过程中，我们会从初始点开始，在搜索方向上通过精确线搜索的方法，找到使目标函数值符合要求（例如，min f(X)）的步长，然后将点移动到下一点。这样不断进行下去，就会得到很多个点。在N维空间Rⁿ中，在每一个搜索方向上，都有无数个点，它们构成了一个轨迹（或者说一个集合），我们称之为线性流形——拿二维空间（二维平面）作比喻，就好像是一个点在二维平面上的移动形成的轨迹：

只不过在高维空间中，我们想像不出这个轨迹的样子，不过这没关系，能引申上去就好了。

当目标函数是二次函数时，在这个线性流形中，每一个我们迭代到的点都是极小值点。在某些书中，你可能还会看到一种说法，称此线性流形为N维超平面，也是一个意思，不过概念太多了会让人很晕，尤其是在没有掌握足够的背景的情况下，往往不能判断一个概念与另一个概念是不是同一个意思，这样就导致理解受到影响，因此，在刚开始学习的时候，我觉得努力弄懂一个概念就好了。

这个理论基础在推导“如何获取共轭梯度法的搜索方向”的过程中会用到。

文章来源：http://www.codelast.com/

由于上面的理论基础是在目标函数为二次函数的情况下得到的，因此，在推导共轭梯度法的搜索方向的公式之前，我们先假定目标函数是二次函数：

其中G为n阶对称正定矩阵。X为自变量（一个n维向量）。

如果觉得这个X为n维向量的函数形式有点怪的话，那么还是对比一下X为1维（可以视为一个标量）的函数形式，就很清楚了：

在下面的推导过程中，如果你遇到看上去很“别扭”的式子，只要按照这样的规则来对比就行了。

由于共轭梯度法就是与梯度相关的方法，因此我们必须要求[2]式的函数的梯度（即一阶导数）：

现在，假设初始点为X₀，我们从X₀出发，先推导出前几个搜索方向的计算方法，从而总结出若干规律，进而再得到通用的公式。下面我们就开始这样做。

在每一个迭代点处，新的搜索方向都是用前面的搜索方向与当前点的负梯度方向共轭化得到的。在初始点处，并没有“前面的搜索方向”，因此，初始点处的搜索方向d₀简单地定为负梯度方向：

上面的式子中，将目标函数在X₀点的梯度g(X₀)写为g₀，是为了表达简洁。同理，g(X₁)也记为g₁，等等。

第二个迭代到的点为X₁，它与X₀满足关系：

这表明，点X₁是在d₀方向上，由X₀点移动一定的距离得到的。移动的步长α₀，则是通过精确线搜索的方法计算得到的，X₁是一个极小值点，在点X₁处，目标函数的一阶导数为零，即：

所以一阶导数再乘以d₀仍然为零：

这个式子，在紧接着的推导中马上要用到。我发现从[7]到[8]我真的太废话了，好吧，我承认我很啰嗦…

文章来源：http://www.codelast.com/

既然第一个搜索方向d₀毫无难度地取了负梯度方向，那么我们就来看看下一个搜索方向d₁怎么获取。从共轭梯度法的定义（或者说是原则）——新的搜索方向是用前面的搜索方向与当前点的负梯度方向共轭化得到的——来看，d₁与d₀（前面的搜索方向）有关，也与-g₁（当前点的负梯度方向）有关，因此，只需要假定d₁是-g₁与d₀的线性组合即可：

其中，r₀是一个实数。此外，由于每一个搜索方向与前面的搜索方向都是共轭的，因此，d₁与d₀还要满足共轭条件：

但是r₀到底是什么值呢？只有知道了r₀，我们才能算出d₁，从而继续算出d₂，d₃，……

由上面的式[8]，可以联想到，是否在式[9]的左右两边分别乘以一些矩阵或向量，从而得到一个等式，以求出r₀？对，就是在式[9]的两边均左乘d₀^TG，可推出：

得到了r₀，我们先记下它的形式，后面再使用。紧接着，来计算其他几个式子并由它们得到一些规律。

文章来源：http://www.codelast.com/

首先是在同一点处，搜索方向与梯度的点积d_k^Tg_k：

看出规律来了吗？d_k^Tg_k=-g_k^Tg_k？像这么回事。也就是说，在同一点处，搜索方向与梯度的点积等于负梯度与梯度的点积。所以我们估计d₂^Tg₂，d₃^Tg₃，……都是符合这个规律的。

其次是在某一点处的梯度与前面所有的梯度的点积g_m^Tg_n(m>n)：

由前文所描述的共轭梯度法的理论基础T1，我们知道点X₂，X₃，……均为极小值点，因此，在这些点处，目标函数的梯度为零，即g(X_k)=0，所以有g₂^Td₀=0，g₂^Td₁=0，因此上面的[14]，[15]式均为零：

又看出一点规律没有？g_m^Tg_n=0(m>n)？像是这么回事。也就是说，在某一点处的梯度与前面所有梯度的点积为零。

由上面的特例的计算，我们可以总结出一些规律并用这些规律来得到通用的结论了。假设对所有的搜索方向和梯度，有如下规律：

再重复一遍以上四个式子的含义：同一点处的搜索方向与梯度的点积等于该点处的负梯度与梯度的点积，某一点处的梯度与前面所有搜索方向的点积为0，某一点处的梯度与前面所有梯度的点积为0，某一点处的搜索方向与前面所有搜索方向共轭。

文章来源：http://www.codelast.com/

前面我们单独地求出了d₀和d₁，现在要来看方向d的通用的表达式怎么求了。可以设：

为什么可以这样表示方向d？乍一看，这个式子表示的含义是：当前点的搜索方向是当前点的负梯度方向与前面所有方向的线性组合——似乎很有道理，但是有什么理论依据可以让我们这样假设呢？其实，这是有线性代数理论支持的，但是这个证明涉及到更多的推导，所以这里就不扯过去了。前文所述的方向d₁，也是这样假设之后再求出来的。我就是这样记忆的：当前点的搜索方向是当前点的负梯度方向与前面所有方向的线性组合。我觉得这种感觉很直观，并且也符合我心中的设想，而且事实上它也是对的，初学者就这样记住就好了。

[22]式不够直观，所以，我还是拿一个特例来演示：

这下够清晰了吧？

但是，如何求出[22]式中的每一个r_i,m呢？我们会想到，式子的左边是一个方向向量，在共轭梯度法中，我们要保证某一点的搜索方向与前面所有搜索方向是G共轭的，因此，这提醒了我们，应该在[22]式两边均左乘一个式子，形成“G共轭”的表达式——等式两边均左乘的式子就是d_n^TG（n=0，1，…，m-1）：

我认为在共轭梯度法的推导中，最令人费解的就是这个式子。恕我愚笨，我看了4本最优化的书才搞懂，每一本书不是这里略过去了，就是那里略过去了，总有让人坐过山车的跨越感，但想明白之后的感觉终究是很舒坦的，我在这里就要把它彻底写明白了。

首先要对一个概念非常清楚：在[24]式中，我们乘的d_n^TG，不是说我们要乘n个式子，而是说，对[22]式来说，当m选定以后，那么n就唯一选定了。例如，当m=4时，[22]式就是用来求d₄的，此时，我们乘的d_n^TG就是d₃^TG：

写得如此详细的一个例子，看懂了吗？从这个例子中，我们知道，对n所取的任何值，在[24]式的求和式∑中，除最后一项外，其余所有项的值均为0——这是因为任何一个方向与前面所有方向都是G共轭的（参看G共轭的定义）。所以现在可以写出[24]式的结果了：

其中，r的写法很不直观——其实，对每一个方向d来说，[25]式中只含有一个r，不会像[24]式那样，由于有多个r，使得必须要用复杂的下标来区分，因此此处我们完全可以用r_n来代替[25]式中那个怪怪的r的表达式：

顺便将[27]式转换了一下，得到了[29]式，即 r 的计算方法——这就是我们日夜思念的式子啊，终于揭开面纱了！

（待补全）

共轭梯度法同样会有这样的问题：经过n步迭代之后，产生的新方向不再有共轭性。所以在实际运用中，也有很多修正方向的策略。其中一种策略是：经过n步迭代之后，取负梯度方向作为新的方向。

共轭梯度法的收敛性：比最速下降法的收敛性要好得多。
文章来源：https://www.codelast.com/
➤➤ 版权声明 ➤➤
转载需注明出处：codelast.com
感谢关注我的微信公众号（微信扫一扫）：

[原创]选主元的高斯-约当（Gauss-Jordan）消元法解线性方程组/求逆矩阵

learnhard — Sun, 13 Mar 2011 14:39:15 +0000

选主元的高斯-约当（Gauss-Jordan）消元法在很多地方都会用到，例如求一个矩阵的逆矩阵、解线性方程组（插一句：LM算法求解的一个步骤），等等。它的速度不是最快的，但是它非常稳定（来自网上的定义：一个计算方法，如果在使用此方法的计算过程中，舍入误差得到控制，对计算结果影响较小，称此方法为数值稳定的），同时它的求解过程也比较清晰明了，因而人们使用较多。下面我就用一个例子来告诉你Gauss-Jordan法的求解过程吧。顺便再提及一些注意事项以及扩展话题。

对本文中所提到的“主元”等概念的解释，可以参考此链接。

假设有如下的方程组：

写成矩阵形式就是：AX=B，其中：

且X=(X₁, X₂, X₃)^T。

文章来源：http://www.codelast.com/

现对矩阵A作初等变换，同时矩阵B也作同样的初等变换，则当A化为单位矩阵的时候，有：

显而易见，我们得到了方程组的解X=(1, 2, 4)^T。

所以，我们要以一定的策略，对A和B施以一系列的初等变换，当A化为单位矩阵的时候，B就为方程组的解。

选主元的G-J消元法通过这样的方法来进行初等变换：在每一个循环过程中，先寻找到主元，并将主元通过行变换（无需列变换）移动到矩阵的主对角线上，然后将主元所在的行内的所有元素除以主元，使得主元化为1；然后观察主元所在的列上的其他元素，将它们所在的行减去主元所在的行乘以一定的倍数，使得主元所在的列内、除主元外的其他元素化为0，这样就使得主元所在的列化为了单位矩阵的形式。这就是一个循环内做的工作。然后，在第二轮循环的过程中，不考虑上一轮计算过程中主元所在的行和列内的元素，在剩下的矩阵范围内寻找主元，然后（如果其不在主对角线上的话）将其移动到主对角线上，并再次进行列的处理，将列化为单位矩阵的形式。余下的步骤依此类推。具体的计算过程的一个例子，请看下面我举的求逆矩阵的过程。

如果要解系数矩阵相同、右端向量不同的N个方程组，在设计程序的时候，没有必要”解N次方程组“，我们完全可以在程序中，将所有的右端向量以矩阵的数据结构（类似于二维数组）来表示，在系数矩阵作行变换的时候，矩阵里的每一个右端向量也做同样的变换，这样，我们在一次求解运算的过程中，实际上就是同时在解N个方程组了，这是要注意的地方。

文章来源：http://www.codelast.com/

那么，G-J法为什么可以用来求逆矩阵？

假设AX=E，其中，A为n阶系数矩阵（与上面的解线性方程组对照）；E为单位矩阵，即E=(e₁,e₂,…,e_n)，其中e_i(i=1,2,…,n) 为单位列向量；X为n个列向量构成的矩阵，即X=(x₁,x₂,…,x_n)，其中x_i(i=1,2,…,n) 为列向量。于是，可以把等式AX=E看成是求解n个线性方程组Ax_i=e_i (i=1,2,…,n)，求出了所有的x_i之后，也即得到了矩阵X。而由AX=E可知，矩阵X是A的逆矩阵，即X=A^-1。这样，就求出了A的逆矩阵了。于是，求逆矩阵的过程被化成了解线性方程组的过程，因此我们可以用Gauss-Jordan消元法来求逆矩阵。

求逆矩阵时，系数矩阵A和单位矩阵E可以共用一块存储区，在每一次约化过程中，系数矩阵逐渐被其逆矩阵替代。

在这里，我用一个实际的例子来说明G-J法求逆矩阵的过程：

有如下的方程组：

显而易见，该方程组对应的系数矩阵A和右端向量矩阵B（此处只有一个右端向量）分别为：

其实在求逆矩阵的过程中，矩阵B无关紧要，可以忽略，不过此处还是把它写出来了。下面，把单位矩阵E附在A的右边，构成另一个矩阵（A|E）：

文章来源：http://www.codelast.com/

下面，我们就通过矩阵的初等变换，将A化为单位矩阵E，而E则化为了A的逆矩阵。以下是转化步骤：

【Step 01】主元选为3，所以将Row1（第一行）与Row2（第二行）交换：

【Step 02】主元所在行的所有元素除以主元：

【Step 03】Row1 - Row2，Row3 - 2 × Row2：

现在，原来的矩阵A有一列被化为了单位阵的形式。

【Step 04】重新选主元，这一次主元选为5/3，于是Row1 ÷ 5/3（主元所在行的所有元素除以主元）：

【Step 05】Row2 - (1/3) × Row1，Row3 - (4/3) × Row1：

现在，原来的矩阵A又有一列被化为了单位阵的形式。

【Step 06】重新选主元，这一次主元选为-1/5，于是Row3 ÷ (-1/5)（主元所在行的所有元素除以主元）：

【Step 07】Row1 - (2/5) × Row3，Row2 - (1/5) × Row3：

现在，原来的矩阵A的所有列都被化为了单位阵的形式。

可见，以上过程非常适合于计算机编程求解。

文章来源：http://www.codelast.com/

至此，我们完成了从A到E的转换，这个过程中使用了选主元的方法，但没有使用列交换。于是，原来的单位矩阵E就变成了A^-1，即：

有人说，在进行转化的过程中，如果某一步发现选中的主元为0，怎么办？当然，这种情况就进行不下去了（矩阵是奇异的）。
文章来源：https://www.codelast.com/
➤➤ 版权声明 ➤➤
转载需注明出处：codelast.com
感谢关注我的微信公众号（微信扫一扫）：

最优化 – 编码无悔 / Intent & Focused

[原创] 用人话解释机器学习中的Logistic Regression（逻辑回归）

[原创] 再谈 共轭方向法/Conjugate Direction Method In Optimization

[原创] 再谈 牛顿法/Newton's Method In Optimization

[原创] 再谈 梯度下降法/最速下降法/Gradient descent/Steepest Descent

[原创] Cauchy-Schwartz(柯西-施瓦茨)不等式复习

[原创] line search中的重要定理 - 梯度与方向的点积为零

[原创]使用一维搜索(line search)的算法的收敛性

[原创]信赖域(Trust Region)算法是怎么一回事

[原创]用“人话”解释不精确线搜索中的Armijo-Goldstein准则及Wolfe-Powell准则

[原创]漫谈line search中的Fibonacci搜索与黄金比例搜索

[原创]一维搜索中的划界(Bracket)算法

[原创]最优化/Optimization文章合集

[原创]拟牛顿法/Quasi-Newton，DFP算法/Davidon-Fletcher-Powell，及BFGS算法/Broyden-Fletcher-Goldfarb-Shanno

[原创]最速下降法/steepest descent，牛顿法/newton，共轭方向法/conjugate direction，共轭梯度法/conjugate gradient 及其他

[原创]选主元的高斯-约当（Gauss-Jordan）消元法解线性方程组/求逆矩阵

[原创] 再谈共轭方向法/Conjugate Direction Method In Optimization

[原创] 再谈牛顿法/Newton's Method In Optimization

[原创] 再谈梯度下降法/最速下降法/Gradient descent/Steepest Descent