Drug repurposing through joint learning on knowledge graphs and literature

Drug repurposing through joint learning on knowledge graphs and literature

Mona Alshahrani, Robert Hoehndorf

Abstract

motivation:对已知的drug研究其新的目的,可能包含新的protein target或者新的indication for a known mechanism。许多现有的计算方法都依赖于不同信息来源的组合、挖去手动特征、然后使用计算模型来预测target或者indication for a drug。不同的repurposing system的不同点就是特征的选取。最近,有一系列新的机器学习方法可以很高效地从不同的数据集中学习到特征,而且这些方法可以应用到基于knowledge graph上的text或者structured data。

results:我们发明了一个新的方法将information in literature和structured databases结合起来,然后使用feature learning的方法来生成vector space embeddings。我们将我们的方法应用到了drug target identification和drug indication上。我们展示了我们的方法能够将互为补充的信息从databases和literature中结合起来,并且可以和well-established methods相媲美。我们的方法是泛化的,并且可以用到其他领域,只要是用multi-modal information来构造预测模型。

Intro

在一个模型中将不通类型的multi-modal information结合起来能够提升模型性能。

许多与drug repurposing相关的数据可以通过Semantic Web技术进行整合。

最近有几项学习entity embedding的unsupervised learning方法。在unstructured text上的用Word2Vec。类似的有在knowledge graph上。这些方法逗比经典模型性能提升很多。

我们的方法使用可以在knowledge graph上表示的structured,semantic information,并且讲这个信息和unstructured text上挖取的信息相互结合。

Methods

Data Sources

它包含了三种entity:disease,gene/protein(二者不做区分),chemical/drug(二者不做区分),以及它们相互之间的反应和与ontology class的联系。后续还包含了很多从其他数据库中挖取的relation。

对于text preprocessing,我们用了预先标注的Medline词库。

Generation of corpus and text normalization

我们用在knowledge graph上random walk来生成词库。对于图中的每一个节点,我们会基于random walk生成一个sentence。每一个walk是sequence of tokens,也就是node和edge。

Learning Embeddings

我们用Word2Vec中的skip-gram在random walk生成的corpus上来学习embedding。

Training of supervised prediction models

我们用downstream task,比如drug-target和drug-disease预测,来评估embedding的质量。

Multi-modal drug repurposing

评估方法其实就是link/association prediction。每次随机选取,除了有记录的positive link/association,同时还会随机采样同样多的weak negative link/association。

Results

Integrating literature and structured knowledge

使用RDF作为knowledge graph中的representation语言。

Appendix

单纯地将基于text的Word2Vec作为vertex embedding,有点太简单粗暴。

results matching ""

    No results matching ""