RAPID LEARNING OR FEATURE REUSE? TOWARDS UNDERSTANDING THE EFFECTIVENESS OF MAML

RAPID LEARNING OR FEATURE REUSE? TOWARDS UNDERSTANDING THE EFFECTIVENESS OF MAML

Aniruddh Raghu, Maithra Raghu

MIT, Google Brain, DeepMind

3 MAML, RAPID LEARNING, AND FEATURE REUSE

理解MAML为何有用,有两种解释

  1. rapid learning:学到了meta-information之后,在fine-tuning阶段,会有很多的parameter updates,但是这个update是非常快的(因为meta-information)。
  2. feature reuse:meta-information已经包含了大量有用信息,所以在fine-tuning的时候,只需要一点点parameter update。

最后结果表明了feature reuse更能解释MAML的成功。

3.1 Overview of MAML

For task b, with m inner-loop updates:

$$ \thetam^{(b)} = \theta{m-1}^{(b)} - \nabla{\theta{m-1}^{(b)}} \ell(f{\theta{m-1}^{(b)} })

$$

, where $$\theta_{0}^{(b)} = \theta$$.

At the test time, the new prediction on task b is $$f{\theta{m}^{(b)} }$$.(注意,这里不是fine-tuning)

3.2 Rapid Learning or Feature Reuse

为了理解这么一个核心问题,我们需要考虑head of neural networks。先区分两个概念:head(最后一层layer)和earlier layer(整个network)。对于每一个few-shot learning task,他们的output neurons和class是不一样的;比如task 1和task 2要预测的task可以不一样。这就意味着head需要随着task的改变而改变。而对于这个问题,我们主要关注的是behavior of the whole body。

为了进行验证,我们跑了两组实验

  1. 在MAML training之后,将参数freeze
  2. 用representational similarity tool来直接analyze how much the network features and representations change through the inner loop

3.2.1 Freezing Layer Representations

在test time的时候,inner loop分别freeze一定数量的layers,发现performance几乎没有受到影响。这就意味着meta-initialization已经学习到了很好的feature representation。

3.2.2 Representational Similarity Experiments

下面是观察latent representation在inner loop adaptation阶段改变多大。

我们用Canonical Correlation Analysis (CCA)和CKA (Centered Kernel Alignment)进行分析。发现只有head(last layer)在inner loop前后变化很大。

3.2.3 Feature Reuse Happens Early in Learning

哪怕在训练初期,significant feature reuse is taking place。

4 The ANIL (Almost No Inner Loop) Algorithm

ANIL中,仅仅update head。

Appendix

results matching ""

    No results matching ""