Geometry of Optimization and Implicit Regularization in Deep Learning

Geometry of Optimization and Implicit Regularization in Deep Learning

Benham Neyshabur, etc.

Intro

optimization在深度模型泛化上起着关键作用,通过implicit regularization。这篇paper通过学习parameter space上的geometry,并基于这个geometry提出一个optimization算法。

提出了network size对于capacity control并没有起到关键作用,而应该是某些其他,implicit因素。而这个隐含的capacity control是真正的inductive bias。

不同的optimization算法是隐含有measure of distance或者norm和divergence。比如gradient descent是steepest descent w.r.t. l-2 norm,而coordinate descent是steepest descent w.r.t. l-1 norm,exp-gradient是与entropic divergence相关。因此,norm或者divergence可以理解为是regularizer。

这里考虑measurement,由max-norm regularization激发,相比于l-2 norm能够提供一个更精确的inductive bias。这也反映了由optimization带来的implicit regularization的重要性。

并基于此提出了一个新的optimization算法,Path-SGD。

Implicit Regularization

分析和ICLR 2015 inductive bias那篇差不多。

Appendix

几个的关系:

generalization ability是因为有inductive bias,而inductive bias又控制capacity。

capacity并不是受network size控制,而是受到optimization算法影响(作为implicit regularization)。

results matching ""

    No results matching ""