Meta-Learning Transferable Active Learning Policies by Deep Reinforcement Learning

Under Review

Intro

在很多应用中，监督都是和数据的规模密切相关。在这些设定中，active query selection就对于以下十分重要：选择instance，来使得分类器base learner会表现得非常好。

将active learning的算法设计当作meta-learning的问题，并且从中学习到最好的策略。很自然地将AL当作一个序列决策问题，因为每一个行为（查询的数据点）会影响到上下文（查询的数据点和base learner）。这种设定下，query policy很可能能够学习到一个strong并且有远见的policy。通过将base learner的accuracy作为reward，我们优化最终目标：只有很少label时候的classifier的accuracy。

Preliminaries

AL： AL的设定就是将数据分成labelled和unlabelled两部分，每一个epoch，active learner都会从unlabelled pool中选择一个数据进行学习。然后classifier会根据新加入的数据重新学习。

Methods

目标是为了学习一个active query policy，最大的挑战是training和test的statistics可能不一样，不同的数据集特征维度会不一样。这里通过定义两个sub-networks来解决。（类似diet network）

Policy Network： 输入是所有的unlabelled data，而输出是N-way softmax分布。最终的运行会经过$$W_e$$进行encode。通过某些domain knowledge，我们可以将raw instance augment到固定长度。

Meta Network： input是$$\mathcal{L}, \mathcal{U}, \mathcal{f}$$，产生$$W_e \in \mathbb{R}^{d \times k}$$来允许network将一个d维度的输入转换成k维度的hidden representation。这里的转换/投影是经过合成的。

Appendix

后面细节的设计没有太关注，不过实验部分还有点薄。最好能够多增加几组domain。

Meta-Learning Transferable Active Learning Policies by Deep Reinforcement Learning

Meta-Learning Transferable Active Learning Policies by Deep Reinforcement Learning