Objective-Reinforced Generative Adversarial Networks (ORGAN) for Sequence Generation Models

Gabriel Guimaraes, Bengamin Sanchez-Lengeling, Pedro Luis Cunha Farias, Alan Aspuru-Guzik

Harvad

Intro

RL可以生成任意的序列。在naive RL中，使用固定的reward并且将模型用于决策。这会产生unphysical/uninteresting samples。

这篇paper提出了Objective-Reinforced Generative Adversarial Network(ORGAN)，除了RL，还是用GAN来矫正生成（分子）的过程。

ORGAN在RL的reward函数上，还增加了一个GAN discriminator项。generator是最大化两个reward的平均 1. 原始的objective函数，是固定的 2. discriminator部分，有generator动态决定的

动态的discriminator部分能够避免产生uninteresting或者重复的数据。

通过policy gradient来训练generator，从而同时最大化两个reward：一个是用来最大化hard-coded objective，另外一个是为了骗discriminator。

通过Figure 1，可以发现，前面通过G生成数据，来欺骗D的步骤没有变化，改变的是G的训练部分，多增加了一个RL过程。

在molecule generation中，使用如下进行model evaluation：

在音乐合成的部分，提出了三个evaluation

tonality：有多少个生成的fifths（太专业了，谁能帮忙？）
melodicity：为了降低的和音，有几种interval。如果一个interval要上melodic，必需是前三个中的一种。
ratio of steps：step是两个连续note中间的interval。skip是longer interval。通过增加steps，能够使得音乐的跳跃性变小，从而更加好听。

附refer的文章，也是用的RL进行molecule generation

Jarques, etc. Sequence Tutor: Conservative Fine-Tuning of Sequence Generation Models with KL-control

L. Yu, etc. SeqGAN: Sequence Generative Adversarial Nets with Policy Gradient