Deep Residual Learning for Image Recognition

Deep Residual Learning for Image Recognition

Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun, MSR

Intro

已经被证明了,越深的网络,预测效果越好.但是深层的网络有一个缺陷,就是gradient vanishing/exploding.但是这个问题可以通过normalized initialization和中间normalization layer解决,可以处理几十层左右的NN.

而更深的网络,在开始converge的时候,会有degradation问题:随着网络的深度增加,准确度会饱和,然后急速下降.而且这并不是overfitting.

这篇paper提出来使用deep residual learning framework来解决degradation问题.

Deep Residual Learning

Residual Learning

传统都是拟合目标函数$$H(X)$$,但我们这里来拟合residual残差函数$$F(X)=H(X)-X$$.也就是,$$F(X)$$是我们这里学习的target,而$$H(X)=F(X)+X$$才是实际目标.

Identity Mapping by Shortcuts

如图2所示,在residual network的building block中,最后一层就是$$H(X)=F(X)+X$$,然后再连接到某一个activation layer.而操作$$F(X)+X$$就通过shortcut connection和element-wise addition完成.如果$$H(X)$$和$$X$$的维度不一致,就通过一个映射矩阵$$W_S$$:

$$y = F(x, {W_i}) + W_S x$$

results matching ""

    No results matching ""