Geometry of Optimization and Implicit Regularization in Deep Learning

Benham Neyshabur, etc.

Intro

optimization在深度模型泛化上起着关键作用，通过implicit regularization。这篇paper通过学习parameter space上的geometry，并基于这个geometry提出一个optimization算法。

提出了network size对于capacity control并没有起到关键作用，而应该是某些其他，implicit因素。而这个隐含的capacity control是真正的inductive bias。

不同的optimization算法是隐含有measure of distance或者norm和divergence。比如gradient descent是steepest descent w.r.t. l-2 norm，而coordinate descent是steepest descent w.r.t. l-1 norm，exp-gradient是与entropic divergence相关。因此，norm或者divergence可以理解为是regularizer。

这里考虑measurement，由max-norm regularization激发，相比于l-2 norm能够提供一个更精确的inductive bias。这也反映了由optimization带来的implicit regularization的重要性。

并基于此提出了一个新的optimization算法，Path-SGD。

Implicit Regularization

分析和ICLR 2015 inductive bias那篇差不多。

Appendix

几个的关系：

generalization ability是因为有inductive bias，而inductive bias又控制capacity。

capacity并不是受network size控制，而是受到optimization算法影响（作为implicit regularization）。

Geometry of Optimization and Implicit Regularization in Deep Learning

Geometry of Optimization and Implicit Regularization in Deep Learning