您好,欢迎访问这里是您的网站名称官网!

全国咨询热线

400-123-4567

AdamW论文解读

发布时间:2024-08-12 02:38:13浏览次数:

最近读了一篇关于优化器的论文《DECOUPLED WEIGHT DECAY REGULARIZATION》,与大家分享。

在解读论文之前,有必要知道它的前因。L2正则化往损失函数加入权重惩罚项 \\frac{1}{2}\\lambda\\mathbf{W}^2 。对于SGD,使用L2正则化后,参数更新公式变为公式(1):

\\mathbf{W}_{t + 1}=\\mathbf{W}_t - \\eta(\
abla_{\\mathbf{W}_t}l + \\lambda\\mathbf{W}_t)=(1 - \\eta\\lambda)\\mathbf{W}_t - \\eta\
abla_{\\mathbf{W}_t}l\	ag{1}

因为 1 - \\eta\\lambda < 1 ,所以随着更新, \\mathbf{W} 有趋向于零的倾向,从而选择特征向量的更少维度,提高泛化能力。但是,对于学习率自适应的Adam等优化器,使用L2正则化后,参数更新公式变为公式(2):

\\mathbf{W}_{t + 1}\\approx \\mathbf{W}_t - \\frac{\\eta}{\\left|\\mathbf{W}_t\\right|}(\
abla_{\\mathbf{W}_t}l + \\lambda\\mathbf{W}_t)=\\mathbf{W}_t -  \\frac{\\eta}{\\left|\\mathbf{W}_t\\right|}\
abla_{\\mathbf{W}_t}l - \\eta\\lambda f_\\mathrm{sign}\\left(\\mathbf{W}_t\\right)\	ag{2}

为了解决自适应学习率优化器,使用L2正则化后,效果不理想,AdamW提出了权重衰减,如下图1所示。

图1 权重衰减

在一些测试实验中,SGDM + weight decay差于SGDM + L2 regularization,Adam + weight decay优于Adam + L2 regularization。

PyTorch中的SGDW本质上是SGD + l2 regularization。千万别被名字误导。

  1. 更多epoch + SGD(无momentum) + L2正则化
  2. 比较少的epoch + AdamW

平台注册入口