Train Faster, generalize better, Stability of stochastic gradient descent

Train Faster, generalize better, Stability of stochastic gradient descent

Moritz Hardt, Benjamin Recht, Yoram Singer

Intro

我们的一个point是,任意一个模型如果使用SGM,都能在可以理解的时间范围内,达到非常小的generalization error。

Stability of randomized iterative algorithms

存在某个位置的分布D over samples from some space Z。我们收到一个sample $$S=(z_1, ..., z_n)$$,从D中iid得到。目标是找到一个模型,能够得到非常小的risk

$$R[w] = \mathcal{E}_{z \sim D} f(w; z)$$

f是loss。

因为没法观测到真实的risk,所以使用sample-averaged proxy,也就是empirical risk

$$RS = \frac{1}{n} \sum{i=1}^n f(w; z_j)$$

当$$w=A(S)$$是被选作在data上的一个函数,而函数是randomized algorithm $$A$$,那么可以合理的考虑expected generalization error为

$$\epsilon{gen} = \mathbb{E}{S,A} [R_S[A(S)] - R[A(S)] ]$$

results matching ""

    No results matching ""