DeepTox: Toxicity Prediction using Deep Learning

Andreas Mayr, Gunter Klambauer, Thomas Unterthiner and Sepp Honchreiter

提出了DeepTox pipeline.首先normalize chemical features.然后进行特征提取.下一步是ensemble.最终进行预测.

1. Introduction

毒性测试,如果用活体动物会有道德上的争议.ml就是一个很好的替代方法.

Deep Learning能够更好地构建新的,task-specific特征,这些特征使得DL优于其他计算方法.

2. Materials and Methods

2.1 Tox21 Challenge Data

给了12707个化合物,11764作为training,296个作为leaderboard,647作为testing.对应训练集,化合物的特征和12个targets(different toxic effects)实验结果已知.leaderboard set的label组织者在第一阶段没有提供,后期发布出来,这样参赛者能够根据leaderboard提升自己的模型性能.

2.2 Deep Learning for Toxicity Prediction

DL在机器学习上高度成功,改变了许多领域.我们使用DNN用了toxicity prediction,提供方法细节和算法调整方法.

2.2.1 Deep Neural Networks

介绍了ANN变深.基本就是DNN在每一层layer都有成千上万的neurons,ANN只有几个.一个neuron就是一个抽象的数值加上activation function.

2.2.2 Key Techniques for Deep Neural Networks

ReLU,rectified linear units,保证了spark的表达,并且抵消下降的梯度.

dropout,用来正则化.

cross-entropy,加上softmax或者sigmoid,在output layer层.

2.2.3 DNN Learning, Objective and Optimization

对最后的loss function进行加权,如果有值,active/inactive,则设置为1,否则为0.也就是忽略那些absence的数据.

2.2.4 Hyperparameter Settings and DNN Network Architectures

hidden units在{1024, 2048, 4096, 8192, 16384}中进行选择.

使用AUC作为early stopping.

2.2.5 GPU Implementation

使用了CUDA并行计算平台,NVIDIA Tesla K40 GPUs,相比于CPU能快20-100倍.

2.3 The DeepTox Pipeline

五个组成部分.数据前期处理,化学描述符(特征挖掘),构建模型(包括一些其他模型,如 SVM,Linear regression, random forest的ensemble method),模型评估(使用基于ECFP的Tanimoto相似度,cluster了五个fold),ensemble模型.

3 Results

3.1 Benefit of Multi-Task Learning

比较了single task和multi task training的结果.

3.2 Learning of Toxicophore Representations

neuron可能编码了toxicophore特征,为了检测DL是否真的够早了toxicophores,我们进行了独立的实验.

3.3 Comparison of DNN and Complementary Methods

比较了DNN,SVM,RF,ElNet(elastic net,就是linear regression).Table 4

3.4 Tox21 Data Challenge Results

赢了Tox21 Grand Challenge.

4 Discussion

提到了训练单个task的DNN只要10 min,和前一篇文章20M epoch相比,验证了我们的方法是可靠的.

Appendix

Front. Environ. Sci., 02 February 201

粗看一下,好像是介绍deep learning在tox上的应用,看看能不能来点启发.

DeepTox: Toxicity Prediction using Deep Learning

DeepTox: Toxicity Prediction using Deep Learning