RL^2: Fast Reinforcement Learning via Slow Reinforcement Learning
RL^2: Fast Reinforcement Learning via Slow Reinforcement Learning
Yan Duan, John Schulman, Xi Chen, Peter L. Bartlett, Ilya Sutskever, Pieter Abbeel
Intro
现有的bayesian reinforcement learning是model-based方法,但限制太多。在最简单的情况下可以work,并且需要domain提供prior。
这里提出的一个想法是,把agent的学习过程本身当作objective,来学习一个distribution,反映了某种piror。使用一个RL来学习一个RL,所以叫做$$RL^2$$。
Method
问题的设定是discrete-time finite-horizon discounted MDP。
使用n来表示总共的episode数量,而跑完所有的episode叫做一次trial。
在训练policy的时候,将$$s{t+1}, a_t, r_t, d_t$$作为输入,其中$$d_t$$是表示当前这个episode是否执行完。conditioned on $$h{t+1}$$。而输出就是next hidden state $$h{t+2}, a{t+1}$$。这其中的hidden state就是用来训练policy agent。hidden state会从一个episode传递给下一个episode,但不会在trial之间传递。
Append
这也是2017 ICLR被拒的一篇文章。我看了一下open review,的确是没有formally describe the algorithm,然后analysis上可能欠缺了一点。