Diet Networks: Thin Parameters for Fat Genomics

Diet Networks: Thin Parameters for Fat Genomics

Adrina Romero, Pierre Luc Carrier, etc.

Intro

基因的数据有这么一个特征:特征的维度通常是训练数据的很多倍,从而很难避免overfitting。在这里我们关注的task的输入都是关于病人的genetic variation,叫single nucleotide polymorphisms (SNPs)。单纯的设计NN回带来大量sparse parameter,我们考虑设计了一个新的NN能够避免这类问题。基本想法是对于每一个输入特征,都学习或者提供一个分布式的表达;然后再放到另外一个NN上面进行训练。

简单地说,提供了一个Diet Network来有效地减少free parameter数量,通过来产生另外一个network的参数来做到。

Method

Model

输入特征是$$x \in \mathbb{R}^{N \times N_d}$$,其中$$N$$是样本数量,$$N_d$$是特征的维度,$$N \ll N_d$$(大概小一百倍这样的数量级)。然后基本模型如图1(a),不过我个人感觉这个图有点问题,按照公式(1)的表达方式,最好应当取消MLP到MLP中间的那条线。

中间hidden layer的维度可能只有几百,而$$N_d$$会达到300K,因此这种情况下,使用auxiliary network来预测这些参数的数值。这个模型的输入是$$X^T$$,将其投影到一个embedding layer,然后再使用MLP来预测construction layer的参数值。同样的auxiliary network用来预测reconstruction layer的参数值。这里的auxiliary network就是一个multitask network的应用。

Feature Embedding

embedding可以pre-computed,或者offline学习。这里考虑四种embedding projection的方式。

Random projection: 纯粹随机的projection,但是还是能够将高位的特征空间encode到可控的地维空间。结果还不错。

Per class histogram: 对一个给定的SNP,可以根据整体的分布比例来给每一个class确定一个histogram。可以认为是借助domain pre-defined的projection。

SNPtoVec: Mikolov提出的skip-gram中提到了使用上下文来对word进行编码。SNP没有这种顺序性的结构,所以这里使用了denoising autoencoder (DAE)来训练。DAE还能够处理missing SNP的情况,通过利用和其他SNP的相似距离。

Embedding learnt end-to-end from raw data: 这里考虑同样使用一个MLP来训练embedding,使它变成一个end-to-end的模型。

Appendix

结果看上去还行,但是缺少domain和baseline(因为是一个新问题),所以感受不是特别大。其实这里的auxiliary network也可以是认为某种RL的框架,不过侧重点不一样,这里更侧重信息的传递,而RL会更加测重如何控制。

results matching ""

    No results matching ""