Learning Algorithm for Active Learning

Philip Bachman, Alessandro Sordoni, Adam Trishler

Intro

现实中很多unlabelled数据都能够要求获得label。而在active learning中，模型会选择优先对哪些instance进行标记，从而使得最大化task performance和data efficiency。

另外出发点是，有时候更少的训练数据反而会使得模型精度更高。

active learning在实际场景中也有很多的应用。

在active learning中如何选择instance，有很多heuristic方法。比如选择模型预测下来最不确定的instance，或者是能够期望最大程度减少模型的不确定性的instance。这里提出了通过使用metalearning进行end-to-end训练。模型会和相关的task进行交流，从而在当前的task上学习到一个active learning strategy。

模型建立在Matching Network (MN)上。将active learning抽象成序列决策问题：每一步模型都会要求一个特定unlabeled item的label，然后将它加入labeled support set，然后用来MN prediction。

Model Description

先根据task分布选择某些task，然后使用Matching Network适应地选择label。

整个算法流程是非常标准的将RL policy放到Matching Network中用于求下一个待标记label的sample。

Learning Algorithm for Active Learning

Learning Algorithm for Active Learning