Understanding Deep Learning Requires Rethinking Generalization

Chiyuan Zhang, MIT

Samy Bengio, Google Brain

Moritz Hardy, Google Brain

Benjamin Recht, UCB

Oriol VInyals, DeepMind

Intro

DNN模型,有一个特性是训练参数通常比训练样本多很多,而其中有些模型又能够呈现惊人的低generalization error,也就是training error和test error差别很小.但也有些模型的generalize效果不好.

有很多统计的理论,使用了complexity measures,来解释了这个现象的原因.包括VC dimension,Rademacher Complexity,和uniform stability.

Randomized tests

一个中心发现是:DNN可以很容易的fit到随机label.更具体地说,neural network可以达到0training error,而test error则会有一个gap,因为training和test的label没有correlation.

The role of explicit regularization

明确的regularization作用:寻常的regularizer方法有weight decay,dropout,data augmentation.我们发现:明确的regularization可能提高generalization性能,但既没有必要,也不充分控制generalization error.

与经典的convex empirical risk minimization不同,(explicit regularization是去掉不必要项的必要手段),DNN中的regularization表演完全不同的角色.它更像是调节的参数,用于提高最终test error.

Finite sample expressivity

实验结果显示,越大的NN,越能fit各种各样的training data.我们的结果显示,哪怕只是两层的NN,也可以表示任意training data.

The role of implicit regularization

显性的regularizer,比如dropout和weight-decay,不一定是generalization的必要条件,但也不是说所有的模型在训练数据fit well的同时,能够在测试数据上fit well.SGD本身也是一个regularizer.

Effective Capacity

我们的目标是为了验证NN的有效容量.使用non-parametric randomization test:选择一个NN的结构,同时在真实数据和随机过label的数据上进行测试;第二个测试是,在样例数据和label直接没有任何的关系.结果是几乎没有学习.直觉上,在训练过程中,我们应该能够看到训练不再converging或者急剧变慢.但我们发现,不同结构的NN都没有受到影响.

Regularization

哪怕是有regularizer的情况下,对于随机的label,很多DNN模型还是能够很好的fit training data.如表2所示.但也有一些DNN模型效果变差.

而表1则展示了对于true label,不管是否使用regularizer,在training set上都能够很好的fit,但是test set的表现差距比较大.

根据各种比较,得出的结论是:regularizer可能和重要,但是通过改变模型的结构能够获得更高的准确度.

Implicit Regularizations

early stopping是implicit regularization的一种方法. batch normalization在每一个mini-batch中,都进行normalize,很多模型中都被用到.

总结就是,不管是显性还是隐性的regularization,都不是使得模型更加generalize的原因.

Finite-Sample Expressivity

以往的uniform convergence distribution,都是population level,也就是要求sample size n是DNN输入的多项式级别和深度的幂级别,现实中很难.

所以我们反过来分子finite-sample情况下,NN的表达性.我们会发现,只要参数p大于sample size n,那么NN就能完美表达这些sample代表的function.

Implicit Regularization: An Appeal To Linear Models

在linear model中,$$y=Xw$$,如果$$X$$很'扁',那么就有无穷多解.通常判断不同local minima,我们使用curvature of loss function来判断优劣.但在线性的模型中,所有的optimal solution解释一样的.

所以Hessian无法判别时,可行的一种方法是从算法,SGD,的层次考虑.因为$$w{t+1} = w_t - \eta_t e_t x{i_t}$$,而$$w_0 = 0$$.所以我们有$$w = \sum_i^n \alpha_i x_i$$，也就是说,$$w = X^T \alpha$$,

所以最后可以得到$$XX^T\alpha = y$$,这有唯一解.

结果也验证了,使用这个方法方法,可以在test set上得到完美的结果.(测试MNIST)如果我们使用Gabor wavelet transform，那么可以使得运算在24核对workstation上,三分钟就有结果.

总结一下,所以能够完美fit数据的模型当中,SGD会converge到minimum norm的结果.而上述提出的kernel solution的norm会比SGD的结果大很多.

Understanding Deep Learning Requires Rethinking Generalization

Understanding Deep Learning Requires Rethinking Generalization