【CS230-DL】06 优化算法 | 小土刀 2.0

0%

【CS230-DL】06 优化算法

发表于 2019-10-16 更新于 2022-11-26 分类于 CS230 阅读次数：

前面我们了解了加速模型训练的技巧，这节课我们来看看更为关键的优化算法。

更新历史

2019.10.16: 完成初稿

Mini-batch 梯度下降

使用 batch 梯度下降法，一次遍历训练集 = 一次梯度下降优化，在训练集非常大的时候，速度会非常慢。但是如果使用 mini-batch 的话，一次遍历可以下降很多次，可以更快得到比较好的参数组合。对比如下图所示：

对于 batch 梯度下降法来说，每次迭代后，成本函数 J 一定会下降。但是对于 mini-batch 来说，成本函数是波动向下的。当 mini-batch 小到极致，就是只有一个样本的时候，就变成了随机梯度下降法(sgd)。随机梯度下降（紫色）、mini-batch（绿色）与 batch（蓝色）的对比如下图所示：

在实际使用时，我们一般会选择采用 mini-batch，那么问题来了，每个 mini-batch 中的样本数 m 要如何确定？

如果训练集较小（2000 个以下），直接 batch 梯度下降
如果训练集比较大，一般 mini-batch 大小为 64~512（2 的次方比较好）

指数加权平均数 Exponentially Weighted Averages

为了更好了解接下来要介绍的优化算法，我们先要来看看指数加权平均数。

上图是某地某年的温度统计，左边是 1 月，右边是 12 月，蓝色的每个点代表每天的温度。红色的线就是其指数加权平均值，具体的公式为：

$v_t=\beta v_{t-1} + (1-\beta)\theta_t$

这里 $\theta_t$ 表示今天的温度，$v_t$ 表示计算出来的加权值，实际的含义我们可以认为是 $\frac{1}{a-\beta}$ 天的平均温度，比如红线可以看作是过去 10 天的平均值，如果 $\beta=0.98$，根据公式可知，对应的 $v_t$ 表示过去 50 天的平均温度，画出来就是绿色的线：

简单总结一下，$\beta$ 越大，曲线的波动越小，但是信息也越滞后。往往某个中间的值效果最好，具体需要试验得出。

指数加权平均数公式的好处之一是占用内存极少，基本只用一行代码和一点点内存

偏差修正 Bias Correction in Exponentially weighted averages

细心的同学可能会发现，当 $\beta=0.98$ 时相当于 50 天的平均值，那么绿线一开始怎么会和红线在差不多一样的高度呢？没错，如果我们直接用上一节的公式，算出来的曲线应该对应下图的紫线：

可以看到紫线的起点非常低，我们在预估初期不直接使用 $v_t$，而使用 $\frac{v_t}{1-\beta^t}$，就可以得到绿线。随着 t 不断增大，偏差修正也会越来越小，就和原来的一样了。

动量梯度下降法 Gradient descent with Momentum

简单来说，就是计算梯度的指数加权平均数，并以此更新权重，一般来说，动量梯度下降法的运行速度会比标准梯度下降法快。

我们来看下面一种情况：

假设我们的优化过程如蓝线所示，一旦我们加大学习率，可能会偏离函数范围，所以我们不得不用比较小的学习率。总体来说，我们希望在垂直方向上少一点波动，而在水平方向上移动快一点。回忆一下前面的指数加权平均，我们是可以通过调整 $\beta$ 的值，来低效垂直方向上的波动的。具体的实现如下：

另外，有的时候 $1-\beta$ 部分会被去掉，不过具体怎么用可以自行决定

RMSprop

RMSprop 可以看作是动量梯度下降的一个改进，会让 W 方向的学习速度变快的同时，减少 b 方向的摆动。具体如下图所示：

Adam 优化算法

Adam 表示 Adaptive Moment Estimation，可以看作是 Momentum 和 RMSprop 合体的结果，能够有效适用于不同的神经网络，具体的公式推导这里不赘述，主要列举下关键参数的设置：

$\alpha$: 学习率，需要自行调整
$\beta_1$: 默认为 0.9，是 Momentum 涉及的项，一般不需要修改
$\beta_2$: 默认为 0.999，是计算 $(dW)^2$ 和 $(db)^2$ 的移动加权平均，一般不需要修改
$\epsilon$: 默认为 $10^{-8}$，一般不需要修改

学习率衰减 Learning Rate Decay

加快学习算法的另一个办法是随着时间慢慢减少学习率，简单理解就是一开始的尝试空间比较大，而后随着越来越接近最优，需要调整的就越小，如果还用一样大的学习率，就会反复横跳（如下图蓝线）。所以我们可以使学习率越来越小，达到绿线的效果，如下图所示：

具体的衰减方法有很多，比如指数衰减，基于 epoch 衰减，或离线下降衰减。但在诸多的超参数中，学习率衰减的优先级没有很高。

局部最优问题

简单来说，我们不太可能在优化的时候被困在极差的局部最优中，除非是训练存在大量参数且成本函数 J 被定义在较高维度空间的大型神经网络的时候。

相对来说，鞍点（见下图）是更容易出现的问题，需要特别注意选择合适的优化算法

本文作者： wdxtub
本文链接： https://wdxtub.com/course/cs230-06/2019/10/16/
版权声明： 本博客所有文章除特别声明外，均采用 BY-NC-SA 许可协议。转载请注明出处！