Diet Networks: Thin Parameters for Fat Genomics

Adrina Romero, Pierre Luc Carrier, etc.

Intro

基因的数据有这么一个特征：特征的维度通常是训练数据的很多倍，从而很难避免overfitting。在这里我们关注的task的输入都是关于病人的genetic variation，叫single nucleotide polymorphisms (SNPs)。单纯的设计NN回带来大量sparse parameter，我们考虑设计了一个新的NN能够避免这类问题。基本想法是对于每一个输入特征，都学习或者提供一个分布式的表达；然后再放到另外一个NN上面进行训练。

简单地说，提供了一个Diet Network来有效地减少free parameter数量，通过来产生另外一个network的参数来做到。

Method

Model

输入特征是$$x \in \mathbb{R}^{N \times N_d}$$，其中$$N$$是样本数量，$$N_d$$是特征的维度，$$N \ll N_d$$（大概小一百倍这样的数量级）。然后基本模型如图1（a），不过我个人感觉这个图有点问题，按照公式（1）的表达方式，最好应当取消MLP到MLP中间的那条线。

中间hidden layer的维度可能只有几百，而$$N_d$$会达到300K，因此这种情况下，使用auxiliary network来预测这些参数的数值。这个模型的输入是$$X^T$$，将其投影到一个embedding layer，然后再使用MLP来预测construction layer的参数值。同样的auxiliary network用来预测reconstruction layer的参数值。这里的auxiliary network就是一个multitask network的应用。

Feature Embedding

embedding可以pre-computed，或者offline学习。这里考虑四种embedding projection的方式。

Random projection: 纯粹随机的projection，但是还是能够将高位的特征空间encode到可控的地维空间。结果还不错。

Per class histogram: 对一个给定的SNP，可以根据整体的分布比例来给每一个class确定一个histogram。可以认为是借助domain pre-defined的projection。

SNPtoVec: Mikolov提出的skip－gram中提到了使用上下文来对word进行编码。SNP没有这种顺序性的结构，所以这里使用了denoising autoencoder （DAE）来训练。DAE还能够处理missing SNP的情况，通过利用和其他SNP的相似距离。

Embedding learnt end-to-end from raw data: 这里考虑同样使用一个MLP来训练embedding，使它变成一个end-to-end的模型。

Appendix

结果看上去还行，但是缺少domain和baseline（因为是一个新问题），所以感受不是特别大。其实这里的auxiliary network也可以是认为某种RL的框架，不过侧重点不一样，这里更侧重信息的传递，而RL会更加测重如何控制。

Diet Networks: Thin Parameters for Fat Genomics

Diet Networks: Thin Parameters for Fat Genomics