DeepLearning Hyperparameters

前言

利用深度学习网络训练模型时，需要对一些超参数作用与意义进行清楚了解，才能根据实际训练时出现的问题做相应调整，进而训练出满足精度的模型。

以下为超参数：

momentum 动量
weight decay 权重衰减
learning rate 学习率

环境

系统环境

Distributor ID:	Ubuntu
Description:	Ubuntu 18.04.4 LTS
Release:	18.04
Codename:	bionic
Linux version :       5.3.0-46-generic ( buildd@lcy01-amd64-013 ) 
Gcc version:         7.5.0  ( Ubuntu 7.5.0-3ubuntu1~18.04 )

软件信息

version : 	
     None

正文

1、momentum 动量

1.1 背景

动量来源于牛顿定律，基本思想是为了找到最优，SGD通常来说下降速度比较快，但却容易造成另一个问题，就是更新过程不稳定，容易出现震荡。加入“惯性”的影响，就是在更新下降方向的时候不仅要考虑到当前的方向，也要考虑到上一次的更新方向，两者加权，某些情况下可以避免震荡，摆脱局部凹域的束缚，进入全局凹域。

1.2 动量

动量，是上一次更新方向所占的权值。当误差曲面中存在平坦区域，SGD可以更快的学习，是梯度下降法中一种常用的加速技术。

1.3 公式

对于一般的SGD，其表达式为： $w := w - lr * dw$ 即沿负梯度方向下降。而添加momentum的SGD形式如下： $v := mu * v - lr * dw$ $w := w + v$ 其中mu为momentum系数，即如果上一次的momentum(v)与这一次的负梯度方向是相同的，则这次下降的幅度就会很大，就起到加速迭代收敛的作用。

注：一个小的trick是，当刚开始训练的时候，把动量设小，或者直接就置为0，然后慢慢增大冲量，有时候效果比较好。

1.4 作用

2、weight decay 权重衰减

2.1 背景

在机器学习或者模式识别中，会出现overfitting，而当网络逐渐overfitting时网络权值逐渐变大，因此，为了避免出现overfitting，会给误差函数添加一个惩罚项（正则项），常用的惩罚项是所有权重的平方乘以一个衰减常量之和。其基本思想就是减小不重要的参数对最后结果的影响，一般权值衰减惩罚项使得权值收敛到较小的绝对值，而惩罚大的权值。因为大的权值会使得系统出现过拟合，降低其泛化性能。

2.2 L2正则化与权重衰减系数

在损失函数中，weight decay是放在正则项（regularization）前面的一个系数，正则项一般指示模型的复杂度，L2正则化就是在代价函数后面加上一个正则化项：

$C=C_{0}+\frac{\lambda}{2 n} \sum_{w} w^{2}$ 其中C0代表原始的代价函数，后面那一项就是L2正则化项，其为所有参数w平方的和，除以训练集的样本大小n。λ就是正则项系数，权衡正则项与C0项的比重。另外还有一个系数1/2，主要是为了后面求导的结果方便，后面那一项求导会产生一个2，与1/2相乘刚好凑整为1。系数λ就是权重衰减系数。

2.3 公式推导

我们对加入L2正则化后的代价函数进行推导，先求导：

\[\begin{array}{l} \frac{\partial C}{\partial w}=\frac{\partial C_{0}}{\partial w}+\frac{\lambda}{n} w \\ \frac{\partial C}{\partial b}=\frac{\partial C_{0}}{\partial b} . \end{array}\]

可以发现L2正则化项对b的更新没有影响，但是对于w的更新有影响： $\begin{aligned} w & \rightarrow w-\eta \frac{\partial C_{0}}{\partial w}-\frac{\eta \lambda}{n} w \\ &=\left(1-\frac{\eta \lambda}{n}\right) w-\eta \frac{\partial C_{0}}{\partial w} \end{aligned}$

在不使用L2正则化时，求导结果中w前系数为1，现在w前面系数为1-ηλ/n，因为η（学习率）、λ、n都是正的，所以1-ηλ/n小于1，它的效果是减小w，这也就是权重衰减（weight decay）的由来。当然考虑到后面的导数项，w最终的值可能增大也可能减小。另外，需要提一下，对于基于mini-batch的随机梯度下降，w和b更新的公式跟上面给出的有点不同： $b \rightarrow b-\frac{\eta}{m} \sum_{x} \frac{\partial C_{x}}{\partial b}$ $w \rightarrow\left(1-\frac{\eta \lambda}{n}\right) w-\frac{\eta}{m} \sum_{x} \frac{\partial C_{x}}{\partial w}$

对比上面w的更新公式，可以发现后面那一项变了，变成所有导数加和，乘以η再除以m，m是一个mini-batch中样本的个数。

2.4 正则项（权重衰减）作用

作用及使用：

使用正则项既不是为了提高收敛精确度也不是为了提高收敛速度，其最终目的是防止过拟合。所以weight decay的作用是调节模型复杂度对损失函数的影响，若weight decay很大，则复杂的模型损失函数的值也就大。
如果过拟合，调大这个参数；如果欠拟合，调小这个参数。
对于caffe框架最终正则项的惩罚是solver.prtotxt中设置的惩罚项weight_decay与layer中的decay_mult的乘积。若不想让某一些参数加入正则项中，则将layer中的对应param中的参数decay_mult设置为0。例如，一般把bias的decay_mult设置为0，代表bias不加入到正则项的优化中。
思考： L2正则化项有让w变小的效果，但是为什么w变小可以防止过拟合呢？

原理：

从模型的复杂度上解释：较小的权值w，从某种意义上说，表示网络的复杂度较低，对数据的拟合更好（这个法则也叫做奥卡姆剃刀），而在实际应用中，也验证了这一点，L2正则化的效果往往好于未经正则化的效果。
从数学方面的解释：过拟合的时候，拟合函数的系数往往非常大，为什么？如下图所示，过拟合，就是拟合函数需要顾忌每一个点，最终形成的拟合函数波动很大。在某些很小的区间里，函数值的变化很剧烈。这就意味着函数在某些小区间里的导数值（绝对值）非常大，由于自变量值可大可小，所以只有系数足够大，才能保证导数值很大。而正则化是通过约束参数的范数使其不要太大，所以可以在一定程度上减少过拟合情况。

3、 learning rate 学习率

学习率决定了权值更新的速度，设置得太大会使结果超过最优值，太小会使下降速度过慢。在训练模型的时候，通常会遇到这种情况：我们平衡模型的训练速度和损失（loss）后选择了相对合适的学习率（learning rate），但是训练集的损失下降到一定的程度后就不在下降了，比如training loss一直在0.2和0.4之间来回震荡，不能进一步下降。遇到这种情况通常可以通过适当降低学习率（learning rate）来实现。但是，降低学习率又会延长训练所需的时间。学习率衰减（learning rate decay）就是一种可以平衡这两者之间矛盾的解决方案。学习率衰减的基本思想是：学习率随着训练的进行逐渐衰减。学习率衰减策略见：深度学习中常用的学习率衰减策略及tensorflow实现