Learning to SMILE(S)

Learning to SMILE(S)

Stanislaw Jastrzebski

这篇paper是去年2月份就发出来的,其实很多人都已经做过类似的事情.idea不难想,主要是及早提出了这个问题.

模型

比较RNNLM (recurrent neural network language model)和CNN,以及传统的分类器模型,比如NB,SVM,和RF.

特征

都是使用SMILES作为特征,RNN模式是经典的embedding,CNN则默认为图的输入.

RNN和CNN都是使用data augmentation,然后对于同一个化合物,不同的augmentation中取预测的平均值.

其余传统的模型都是使用n-gram来取特征.

结果

结果基于log loss.CNN的结果最好,RNNLM结果最差.但是算comparable结果.所以可以算promising work.

Appendix

可以参考作者的主页.

这篇文章用了几个经典的language model,比如 Effective Use of Word Order for Text Categorization with Convolutional Neural Networks.

results matching ""

    No results matching ""