Deep Residual Learning for Image Recognition

Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun, MSR

Intro

已经被证明了,越深的网络,预测效果越好.但是深层的网络有一个缺陷,就是gradient vanishing/exploding.但是这个问题可以通过normalized initialization和中间normalization layer解决,可以处理几十层左右的NN.

而更深的网络,在开始converge的时候,会有degradation问题:随着网络的深度增加,准确度会饱和,然后急速下降.而且这并不是overfitting.

这篇paper提出来使用deep residual learning framework来解决degradation问题.

Deep Residual Learning

Residual Learning

传统都是拟合目标函数$$H(X)$$,但我们这里来拟合residual残差函数$$F(X)=H(X)-X$$.也就是,$$F(X)$$是我们这里学习的target,而$$H(X)=F(X)+X$$才是实际目标.

Identity Mapping by Shortcuts

如图2所示,在residual network的building block中,最后一层就是$$H(X)=F(X)+X$$,然后再连接到某一个activation layer.而操作$$F(X)+X$$就通过shortcut connection和element-wise addition完成.如果$$H(X)$$和$$X$$的维度不一致，就通过一个映射矩阵$$W_S$$:

$$y = F(x, {W_i}) + W_S x$$

Deep Residual Learning for Image Recognition

Deep Residual Learning for Image Recognition

Deep Residual Learning for Image Recognition

Intro

Deep Residual Learning

Residual Learning

Identity Mapping by Shortcuts

results matching ""

No results matching ""