Going Deeper with Convolutions

Going Deeper with Convolutions

Christian Szegedy, etc

Intro

基于ImageNet Large-Scale Visual Recognition Challenge (ILSVRC14),提出了一个新的模型GoogLeNet。

Motivation and High Level Considerations

为了是的模型性能提高,最常用的增加depth和width,但是会有两个问题:overfitting和computation resources。

一个解决方案是引入sparsity,并且fully-connected layer上使用sparse。有证明,如果一个dataset的概率分布由一个非常大,非常深的network表示,那么最优的topology可以由层层叠加的layer表示,叠加的方式可以通过分析前一层layer的activations的correlation statistics和输出高度相关的clustering neurons。

Inception Architecture

Inception的主要目标是考虑一个optimal local sparse structure能够被估计,并且被dense components覆盖。

假设每一层每一个unit都对应image中的某一个区域,并且这些units被分配到了filter banks。

因为计算资源过于昂贵,所以引入另外一个概念:dimensionality reduction。这是受到了embedding的启发,将sparse的信息非常密集的存储起来。

GoogLeNet

是在ILSVRC上使用的Inception模型的专门名称。具体参数在表1中。

Appendix

这篇paper在15年发表,当时使用的还是DistBelief,这几年就已经更新到TensorFlow,MXNet,PyTorch。

results matching ""

    No results matching ""