Powered by GitBook

Molecular De-Novo Design through Deep Reinforcement Learning

Molecular De-Novo Design through Deep Reinforcement Learning

Marcus Olivercrona, Thomas Blaschke, Ola Engkvist, Hongming Chen

Methods

RNN

RNN使用cell的结构来存储过去的记忆。在序列的头和尾分别使用"GO" "GOS"来标记开始和结束。之后使用训练的RNN来产生新的序列。

SMILES有一些注意的地方：我们要表示的是atom-level，而不应该是character-level。"Cl","Br","nH"不能认为是两个atom，而应当是一个。

Reinforcement Learning

考虑一个agent，给定状态集和行为集。想要预测$$\pi(a|s)$$是给定状态，预测行为发生的可能性。而$$r(a|s)$$是reward。long-term return是对应于一个SMILES的$$G = \sum r_t$$

RL是这样的顺序，从一个状态进行一些操作，然后收到了rewards，policy是为了增加$$\mathbb{E}(G)$$。

第一个学习到的RNN在RL中的作用是提供了一个prior distribution，在当前序列下，下一个atom是什么。

Appendix

同样使用RNN编码，但是用RL进行序列产生。

可以考虑在grammar tree上做RL。

但这个只是为了设计molecule，并没有判断的能力。

results matching ""

No results matching ""