Molecular De-Novo Design through Deep Reinforcement Learning

Molecular De-Novo Design through Deep Reinforcement Learning

Marcus Olivercrona, Thomas Blaschke, Ola Engkvist, Hongming Chen

Methods

RNN

RNN使用cell的结构来存储过去的记忆。在序列的头和尾分别使用"GO" "GOS"来标记开始和结束。之后使用训练的RNN来产生新的序列。

SMILES有一些注意的地方:我们要表示的是atom-level,而不应该是character-level。"Cl","Br","nH"不能认为是两个atom,而应当是一个。

Reinforcement Learning

考虑一个agent,给定状态集和行为集。想要预测$$\pi(a|s)$$是给定状态,预测行为发生的可能性。而$$r(a|s)$$是reward。long-term return是对应于一个SMILES的$$G = \sum r_t$$

RL是这样的顺序,从一个状态进行一些操作,然后收到了rewards,policy是为了增加$$\mathbb{E}(G)$$。

第一个学习到的RNN在RL中的作用是提供了一个prior distribution,在当前序列下,下一个atom是什么。

Appendix

同样使用RNN编码,但是用RL进行序列产生。

可以考虑在grammar tree上做RL。

但这个只是为了设计molecule,并没有判断的能力。

results matching ""

    No results matching ""