最速下降法 – 编码无悔 / Intent & Focused

当今世界，深度学习应用已经渗透到了我们生活的方方面面，深度学习技术背后的核心问题是最优化(Optimization)。最优化是应用数学的一个分支，它是研究在给定约束之下如何寻求某些因素(的量)，以使某一(或某些)指标达到最优的一些学科的总称。
梯度下降法（Gradient descent，又称最速下降法/Steepest descent），是无约束最优化领域中历史最悠久、最简单的算法，单独就这种算法来看，属于早就“过时”了的一种算法。但是，它的理念是其他某些算法的组成部分，或者说在其他某些算法中，也有梯度下降法的“影子”。例如，各种深度学习库都会使用SGD（Stochastic Gradient Descent，随机梯度下降）或变种作为其优化算法。
今天我们就再来回顾一下梯度下降法的基础知识。

在最优化的领域中，这“法”那“法”无穷多，而且还“长得像”——名字相似的多，有时让人觉得很迷惑。

在自变量为一维的情况下，也就是自变量可以视为一个标量，此时，一个实数就可以代表它了，这个时候，如果要改变自变量的值，则其要么减小，要么增加，也就是“非左即右“，所以，说到“自变量在某个方向上移动”这个概念的时候，它并不是十分明显；而在自变量为n（n≥2）维的情况下，这个概念就有用了起来：假设自变量X为3维的，即每一个X是（x₁, x₂, x₃）这样的一个点，其中x₁，x₂和x₃分别是一个实数，即标量。那么，如果要改变X，即将一个点移动到另一个点，你怎么移动？可以选择的方法太多了，例如，我们可以令x₁，x₂不变，仅使x₃改变，也可以令x₁，x₃不变，仅使x₂改变，等等。这些做法也就使得我们有了”方向“的概念，因为在3维空间中，一个点移动到另一个点，并不是像一维情况下那样“非左即右”的，而是有“方向”的。在这样的情况下，找到一个合适的”方向“，使得从一个点移动到另一个点的时候，函数值的改变最符合我们预定的要求（例如，函数值要减小到什么程度），就变得十分有必要了。

[原创] 再谈梯度下降法/最速下降法/Gradient descent/Steepest Descent

[原创]最速下降法/steepest descent，牛顿法/newton，共轭方向法/conjugate direction，共轭梯度法/conjugate gradient 及其他