Active One-shot Learning
Active One-shot Learning
Mark Woodward, Chelsea Finn
stanford, Berkeley AI Research
Intro
第一次提出了使用RL来解决active learning这类semi-supervised问题。前面的解决方案使用heuristic居多。
Methodology
每次训练使用short episode,每一个class都只包含几个example,每一个episode都随机打乱class和label。
meta-learning部分在Figure 1中展示。在t时刻,模型会收到一个image $$x_t$$,然后或者预测对应的label,或者要求真实label。而action $$a_t$$,是一个one-hot vector,表示是否需要预测label $$\hat y_t$$;后再紧接着一个bit,表示是否要真实label。
reward有三种,$$R{req}$$是要求true label的reward,$$R{cor}$$是预测正确的reward,$$R_{inc}$$是预测错误的reward。
这里的action-value function使用的是LSTM。$$Q(o_t)$$的输出是一个向量,每一个element表示一个行为。(类似DQN的设定)
Experiment
实验在Omniglot上。偏向于实验性的验证。