一维搜索 – 编码无悔 / Intent & Focused

[原创] line search中的重要定理 - 梯度与方向的点积为零

learnhard — Sun, 02 Mar 2014 04:17:53 +0000

对精确的line search（线搜索），有一个重要的定理：

这个定理表明，当前点在 ${d_k}$ 方向上移动到的那一点（ ${x_k} + {\alpha _k}{d_k}$ ）处的梯度，与当前点的搜索方向 ${d_k}$ 的点积为零。

其中， ${\alpha _k}$ 是称之为“步长”的一个实数，它是通过line search算法求出来的。

为什么会有这样的结论？我们来看看。
对每一个line search过程来说，搜索方向 ${d_k}$ 已经已经是确定的了（在最优化算法中，如何找出一个合适的 ${d_k}$ 不是line search干的事情）。所以，在一个确定的 ${d_k}$ 上，要找到一个合适的 ${\alpha _k}$ ，使得 $\phi (\alpha ) = f({x_k} + \alpha {d_k})$ 这个函数满足 $f({x_k} + {\alpha _k}{d_k}) < f({x_k})$ ，这就是line search的目的。说白了，就是要找到 ${\alpha _k}$ 使 $\phi (\alpha )$ 的函数函数值变小。
文章来源：http://www.codelast.com/
但是，要小到什么程度呢？假设小到有可能的“最小”，即：
$\phi ({\alpha _k}) = f({x_k} + {\alpha _k}{d_k}) = \mathop {\min }\limits_{\alpha > 0} f({x_k} + \alpha {d_k}) = \mathop {\min }\limits_{\alpha > 0} \phi (\alpha )$
那么，我们称这样的line search为“精确的line search”——你看，这名字好贴切：我们精确地找到了函数值最小的那个点。

既然 ${x_k} + {\alpha _k}{d_k}$ 是函数值最小的那个点，那么，在该点处的一阶导数（即梯度）为零，所以我们对上式求导（ $\alpha$ 是自变量， ${x_k}$ 和 ${d_k}$ 为常量）：
$\phi '({\alpha _k}) = {\left[ {f({x_k} + {\alpha _k}{d_k})} \right]^\prime } \cdot (0 + 1 \cdot {d_k}) = {\left[ {f({x_k} + {\alpha _k}{d_k})} \right]^\prime }{d_k} = \nabla f{({x_k} + {\alpha _k}{d_k})^T}{d_k} = 0$
文章来源：http://www.codelast.com/
这就是我们前面说的定理了。

文章来源：https://www.codelast.com/
➤➤ 版权声明 ➤➤
转载需注明出处：codelast.com
感谢关注我的微信公众号（微信扫一扫）：

[原创]使用一维搜索(line search)的算法的收敛性

learnhard — Tue, 29 Oct 2013 15:24:10 +0000

在最优化领域中，有一类使用一维搜索（line search）的算法，例如牛顿法等。这类算法采用的是确定搜索方向→进行一维搜索→调整搜索方向→进行一维搜索的迭代过程来求解。那么，这类算法应该满足什么条件的时候才能收敛？本文将略为讨论一下。请务必看清本文的标题：不是讨论line search的收敛性，而是讨论使用line search的算法的收敛性。

搜索方向条件
搜索方向 ${d_k}$ 满足什么条件时算法才能收敛？谈到这个问题，首先就要定义搜索方向——要有一个“参照物”，要不然何来方向之说呢？
用 ${d_k}$ 与负梯度 $- {g_k}$ 的夹角 ${\theta _k}$ 来衡量搜索方向。我们先给出结论： ${\theta _k}$ 应满足：

http://www.codelast.com/
为了说明这个式子是怎么来的，需要先说明两个向量（ ${d_k}, - {g_k}$ 都是向量）夹角的余弦怎么计算：

http://www.codelast.com/
分子 ${ - {g_k}^T{d_k}}$ 是两个向量的点积（数量积），分母 ${\left\| {{g_k}} \right\|\left\| {{d_k}} \right\|}$ 是两个向量的范数之积，分母>0。
由上面 ${\theta _k}$ 的取值范围可知 $\cos {\theta _k} \in (0,1)$ ，即 $\cos {\theta _k} > 0$ ，因此 ${g_k}^T{d_k} < 0$
所以，根据泰勒展开式（忽略掉高阶无穷小部分）：
$f({x_k} + \alpha {d_k}) = f({x_k}) + \alpha {g_k}^T{d_k} + o(\alpha )$
我们可知， $f({x_k} + \alpha {d_k}) < f({x_k})$ ，即——下降正是最优化的目标。
所以你现在明白为什么 ${\theta _k}$ 要满足上面的条件了。
文章来源：http://www.codelast.com/
【2】两个关于收敛性的重要理论
这两个理论非常重要，作个比喻，如果你要自己设计一个使用line search技术的算法，并且要保证它能收敛的话，那么，你可能就要让你的算法符合这两个理论的要求。
其中一个理论描述了使用精确line search技术的算法的收敛性，另一个描述了使用不精确line search技术的算法的收敛性。
适用于使用精确line search技术的算法
设最优化算法产生的点序列为 $\{ {x_k}\} ,\{ f({x_k})\}$ ，对任意 ${x_0} \in {R^n}$ ，目标函数的梯度 $g(x)$ 在水平集 $L = \{ x \in {R^n}:f(x) \le f({x_0})\}$ 上，若line search的步长 ${\alpha _k}$ 满足精确搜索条件 ${\alpha _k} = \arg \mathop {\min }\limits_{\alpha > 0} f({x_k} + \alpha {d_k})$ ，搜索方向 ${d_k}$ 与 $- {g_k}$ 的夹角满足前面所说的搜索方向条件，那么，必然会发生下面3种情况中的一种：
存在某个有限的 $k$ ，使得 ${g_k} = 0$
$f({x_k}) \to - \infty$
（3） ${g_k} \to 0$
文章来源：http://www.codelast.com/
其中，（3）是最常见的情况，（1）和（2）很少出现——书上是这么说的，至于为什么，我不知道。
（3）中的 ${g_k} \to 0$ 又是个什么概念呢？大家可以想像一下二维平面上的寻优过程，一个图像类似于抛物线的函数，当搜索点逐渐向极小值点逼近时，其梯度 ${g_k}$ 正是趋于0的。

另外，上面出现了“一致连续”的概念，我不太了解，这里摘录Wiki的部分内容：
一致连续性描述定义在一定度量空间上的函数的性质。与连续性刻画函数在局部的性质不同，一致连续刻画的是函数的整体性质。一致连续是比连续更苛刻的条件。一个函数在某度量空间上一致连续，则其在此度量空间上必然连续，但反之未必成立。直观上，一致连续可以理解为，当自变量 $x$ 在足够小的范围内变动时，函数值 $y$ 的变动也会被限制在足够小的范围内。
文章来源：http://www.codelast.com/
适用于使用不精确line search技术的算法
设最优化算法产生的点序列为 $\{ {x_k}\} ,\{ f({x_k})\}$ ，对任意 ${x_0} \in {R^n}$ ，目标函数的梯度 $g(x)$ 在 ${R^n}$ 上，若line search的步长 ${\alpha _k}$ 满足Wolfe-Powell准则，搜索方向 ${d_k}$ 与 $- {g_k}$ 的夹角满足前面所说的搜索方向条件，那么，必然会发生下面3种情况中的一种：

（1）存在某个有限的

$k$ ，使得

${g_k} = 0$

（2）

$f({x_k}) \to - \infty$

（3）

${g_k} \to 0$
和上面一样，书上说，（3）是最常见的情况，（1）和（2）很少出现。对（3）的含义的解释，还是请看上面。

这里又出现了一个新名词：Lipschitz（利普希茨）连续。很抱歉，这个我还是不懂（数学不好的人泪奔）。但是从Wiki的解释，我们仍可以看出个大概来：
符合利普希茨条件的函数一致连续，也连续。直觉上，利普希茨连续函数限制了函数改变的速度。

我感觉，利普希茨连续是比“一致连续”更强的条件。我从《数学分析（上）第四章》里看到一个结论：由函数 $f(x)$ 在区间 $I$ 上Lipschitz连续可得： $f(x)$ 在 $I$ 上一致连续。

有人会说，为什么不精确的一维搜索需要一个“更强”的连续条件啊？我猜是不是由于它是不精确的，所以满足的条件就需要强一些才能达到收敛？当然，这只是直观猜测，谁来给补充一下吧。
文章来源：https://www.codelast.com/
➤➤ 版权声明 ➤➤
转载需注明出处：codelast.com
感谢关注我的微信公众号（微信扫一扫）：

[原创]一维搜索中的划界(Bracket)算法

learnhard — Sat, 26 Oct 2013 15:30:03 +0000

很多最优化算法需要用到一维搜索（line search）子算法，而在众多的一维搜索算法中，大多数都要求函数被限制在一个内，也就是说，在进行一维搜索的区间内，函数是一个。尽管有一些改进的一维搜索算法（例如 $H\ddot opfinger$ 建议的一种改进过的黄金搜索算法）可以处理函数非单峰的情况，但是，在没有确定函数在一个区间内是单峰的之前，即使在搜索过程中，函数值持续减小，我们也不能说极小值是一定存在的，因此，找出一个区间，在此区间之内使函数是单峰的，这个过程是必需的（我更倾向于接受这种观点）。这个过程就叫作划界（Bracket）。Bracket这个单词是括号的意思，很形象——用括号包住一个范围，就是划界。在某些书中，划界算法也被称为进退法。

【1】什么是单峰区间？什么是单峰函数？
从字面上理解，“单峰”即函数只有一个峰，如下图所示（在区间[-8,8]内是单峰的）：

文章来源：http://www.codelast.com/
而下面的这个函数，在区间[2,14]内就不是单峰函数了：

现在，我们再用数学的话来定义一下单峰区间和单峰函数：
$[a,b]$ 为 $R$ 的子集，存在 ${\alpha ^*} \in [a,b]$ ，使得 $f(\alpha )$ 在 $[a,{\alpha ^*}]$ 上严格单调减，在 $[{\alpha ^*},b]$ 上严格单调增，则称 $[a,b]$ 是 $f(\alpha )$ 的单峰区间， $f(\alpha )$ 是 $[a,b]$ 上的单峰函数。
文章来源：http://www.codelast.com/
【2】“划界”是如何实现的
方法是：寻找使函数值达到“高→低→高”的3个点。

如上图所示，当我们找到 $a,b,c$ 这样3个点的时候，它们就能确定一个单峰区间了。
一定有人会有疑问说：这不一定，万一 $b,c$ 之间还有一个峰怎么办？确实，这里举的例子并不是一个完善的例子，在一个实用的划界程序中，它所做的考虑会非常多，各种意外情况都要处理，此处只是为了说明“划界”是怎么一回事，以及一个最简单的划界程序是怎么做的。
文章来源：http://www.codelast.com/
与各种教科书上仅有令人讨厌的公式说明不同（从不考虑读者的感受），我把几个简单的划界步骤画成了几幅图，我觉得有小学文凭已经足够理解了（一图胜千言）：
①：

http://www.codelast.com/
起始点为 ${x_0}$ ，假设一开始向右寻找，步长为 $h$ ，图中的 $k$ 表示迭代的次数。
则第一点挪动到了 ${x_1} = {x_0} + h$ ，计算函数值，发现 $f({x_1}) < f({x_0})$ ，很好，“高→低→高”的3点中，我们已经有了两点。
然后下一点我们挪动到 ${x_2} = {x_1} + t \times h,\;t > 1$ ，这里用加倍系数 $t$ 来乘以步长是为了加速搜索的过程。再计算函数值，发现 $f({x_2}) > f({x_1})$ ，很好，我们已经找到了“高→低→高”的3点。任务完成， $[a,b]$ 即为所求区间。
总结一下步骤就是：
${x_1} = {x_0} + h$
${x_2} = {x_1} + t \times h$
文章来源：http://www.codelast.com/
②：
如果运气没那么好，例如：

文章来源：http://www.codelast.com/
即：
和①一样，搜索也经历了 ${x_0},{x_1},{x_2}$ 这几个点，与①不同的是，到了 ${x_2}$ 点之后，我们发现其函数值仍然小于 ${x_1}$ 点处的函数值，也就是说，我们还没有找到“高→低→高”的3点。
于是我们继续放大步长，令 ${x_3} = {x_2} + t \times t \times h$ ，再计算函数值，发现 $f({x_3}) > f({x_2})$ ，很好，我们已经找到了“高→低→高”的3点。任务完成， $[a,b]$ 即为所求区间。
总结一下步骤就是：
${x_1} = {x_0} + h$
${x_2} = {x_1} + t \times h$ （加大步长）
${x_3} = {x_2} + t \times t \times h$ （继续加大步长）
文章来源：http://www.codelast.com/
③：
①是向右搜索，如果我们运气更差一些，一开始就是个错误（应该向左搜索），怎么办？

http://www.codelast.com/
如上图，起始点为 ${x_0}$ ，第一个挪动到的点起始点为 ${x_1}$ ，而 ${x_1}$ 处的函数值竟然比起始点 ${x_0}$ 处的函数值要大（函数值不降反升）。于是我们可以向左搜索（将步长 $h$ 设为负值），并且把 ${x_1}$ 挪到 ${x_0}$ ，继续按①的节奏进行下去。
总结一下步骤就是：
${x_1} = {x_0} + h$ （发现函数值不降反升）
$h' = - h$ （步长设为负值，向左搜索）
${x_1} = {x_0}$ （重置 ${x_1}$ 点）
${x_2} = {x_1} + h'$
${x_3} = {x_2} + t \times h'$ （加大步长，函数值回升，停止搜索）
文章来源：http://www.codelast.com/
【3】加快划界的速度：逆抛物内插
有没有什么办法可以加快划界的速度呢？有，逆抛物内插（Inverse Parabolic Interpolation）就是一种技术，它可以使得划界算法超线性收敛。
为了解释什么是逆抛物内插，这里用书上的一幅图来讲解：

文章来源：http://www.codelast.com/
如图，实线为目标函数曲线。在该曲线上，如果我们要尽快逼近极小值点，可以这样做：通过①②③三点作一条抛物线（图中粗虚线所示），可以计算出该抛物线的极小值点的横坐标，从而可以找到同一横坐标下，目标函数上的点，即点④；然后再过①②④三点作一条抛物线（图中细虚线所示），可以计算出该抛物线的极小值点的横坐标，从而又可以找到同一横坐标下，目标函数上的点，即点⑤。这样，我们就很快地逼近了极小值。

那么，过三点的抛物线，其极小值点的横坐标怎么求？
已知函数 $f(x)$ ，过 $f(a),f(b),f(c)$ 三点的抛物线，其极小值点的横坐标 $x$ 为：

文章来源：http://www.codelast.com/
注：为什么叫“”？因为上面的方法是用来求横坐标 $x$ ，而不是求 $y$ 的。

有人会问：划界的目标就是找到3个点，而你怎么会预先知道3个点的坐标，从而进行逆抛物内插？这不是因果倒置了吗？
其实，这里的三个点，并不是划界的结果，而是初始的猜测，通过初始的猜测点进行逆抛物内插，再根据内插点的不同情况，分别作不同的处理，最终可以找到划界的3个点。
例如，我们总要知道两个初始点 $a,b$ 吧？好吧，如果你已知的真的只有一个点 $a$ ，那么 $b$ 就随便取比 $a$ 大一点的值好了，这也能凑够两个点啊。通过这两个点，可以通过 $c = b + COE \times (b - a)$ 来得到猜测的第一个 $c$ 点（这里的 $COE$ 表示一个系数，例如1.618），从而可以通过这3点开始逆抛物内插。
文章来源：http://www.codelast.com/
一个实用的划界程序还是挺复杂的——这里的复杂是比较于上面陈述的最简单的划界算法来说的，因为要保证程序在很多“意外情况”下都能正确运行，必须做很多工作。这里就不分析具体的程序了，大家可以到网上找来看一下。
文章来源：https://www.codelast.com/
➤➤ 版权声明 ➤➤
转载需注明出处：codelast.com
感谢关注我的微信公众号（微信扫一扫）：