Convergence of Deep Neural Networks to a Hierarchical Covariance Matrix Decomposition

Convergence of Deep Neural Networks to a Hierarchical Covariance Matrix Decomposition

Nima Dehmamy, Neda Rohani, Aggelos Katssaggelos

Intro

DNN的训练很像物理模型spin glass。最小化loss function好比是在spin glass中找到ground gate(minimum energy configuration)。因为spin glass的energy landscape充满了local minima,所以优化问题是一个NP-hard问题。

提出了一个很有意思的观点,在低层的weight parameter是数据的covariance matrix的eigenvectors。

ReLU and Compressive Sensing

ReLU相比于sigmoid和tan activation function有很多优势。而且只有weight/parameter have significant positive overlap with data,才会update。如果参数的数量远远小于数据的数量,那么就好比是compressive sensing。

Solving

推导过程比较长,TBC

结论就是SGD过程就好比是迭代的KL(Karhunen-Loeve) transform。

然后试验部分就直接这么构建。把这个模型叫做Density Matrix Network(DMN)。实验结果,在lower layer比很宽的CNN结果好,但是随着层数递增,DMN计算量变得非常大。

Appendix

中间提到了KL(Karhunen-Loeve) transform好比是对数据进行MSE。附论文:K. Fukunaga, Introduction to statstical pattern recognition (2013)

results matching ""

    No results matching ""