Meta-Learning Transferable Active Learning Policies by Deep Reinforcement Learning

Meta-Learning Transferable Active Learning Policies by Deep Reinforcement Learning

Under Review

Intro

在很多应用中,监督都是和数据的规模密切相关。在这些设定中,active query selection就对于以下十分重要:选择instance,来使得分类器base learner会表现得非常好。

将active learning的算法设计当作meta-learning的问题,并且从中学习到最好的策略。很自然地将AL当作一个序列决策问题,因为每一个行为(查询的数据点)会影响到上下文(查询的数据点和base learner)。这种设定下,query policy很可能能够学习到一个strong并且有远见的policy。通过将base learner的accuracy作为reward,我们优化最终目标:只有很少label时候的classifier的accuracy。

Preliminaries

AL: AL的设定就是将数据分成labelled和unlabelled两部分,每一个epoch,active learner都会从unlabelled pool中选择一个数据进行学习。然后classifier会根据新加入的数据重新学习。

Methods

目标是为了学习一个active query policy,最大的挑战是training和test的statistics可能不一样,不同的数据集特征维度会不一样。这里通过定义两个sub-networks来解决。(类似diet network)

Policy Network: 输入是所有的unlabelled data,而输出是N-way softmax分布。最终的运行会经过$$W_e$$进行encode。通过某些domain knowledge,我们可以将raw instance augment到固定长度。

Meta Network: input是$$\mathcal{L}, \mathcal{U}, \mathcal{f}$$,产生$$W_e \in \mathbb{R}^{d \times k}$$来允许network将一个d维度的输入转换成k维度的hidden representation。这里的转换/投影是经过合成的。

Appendix

后面细节的设计没有太关注,不过实验部分还有点薄。最好能够多增加几组domain。

results matching ""

    No results matching ""