Value Iteration Networks

Value Iteration Networks

Aviv Tamar, UC-Berkeley

Yi Wu, UC-Berkeley

Garrett Thomas, UC-Berkeley

Sergey Levine, UW

Pieter Abbeel, UC-Berkeley

Introduction

Value Iteration Networks(VIN)是一个包含'planning module'的可导网络。

deep CNN对监督式学习任务产生了革命性影响,比如物体识别、动作识别和图片语义分割。最近CNN也被应用到增强式学习任务,比如Atari游戏、机器操控和模仿学习。

在RL问题中,制定决策的sequential nature是和监督式学习最大的不同,会要求某种形式的计划。如果只用CNN进行特征提取,然后接上完全连接的层,将特征对应到行为的概率分布,这种模型就缺少决策计算。

传统使用CNN的RL,能够学习到reactive policy,比如在一张地图上从起点走到终点,但是无法extend到新的任务,因为这个方法无法理解行为的本质。也就是学习到的reactive policy还不是planning。

这里提出的方法就是经典的value-iteration planning算法能够通过特殊形式的CNN代表。通过将VI网络嵌入到标准的向前推进网络中。

Background

MDP模型是标准的时序的决策制定和计划模型,Value Iteration算法是用来解决MDP模型。

但当状态空间非常大或者连续的时候,MDP模型就没法应用。这个时候,就可以通过专家监督(Imitation Leraning模仿学习)或者尝试和错误(增强式学习)。

The Value Iteration Network Model

首先能够发现每一个VI过程的迭代,都可以认为是将上一次迭代的值函数$$V_n$$和reward函数$$R$$通过卷积层和max-pooling层传递下来的。核心转换的过程是这样(VI module):卷积层的每一个频道都对应于一个action的Q-function,而convolution kernel就根据队员的discounted transition probabilities进行权重权衡。因此如果将卷积层执行$$K$$次,那么就相当于VI执行了$$K$$次。

Appendix

2016 NIPS, Best Paper

还有Karpathy的笔记

刚开始接触增强式学习,很有意思的实现。还有细节不是太明白,比如$$M$$在这里是否有具体的意义?因为我们已经用$$\bar M$$来进行学习。anyway,准备先从grid-world开始玩起来。

results matching ""

    No results matching ""