Identifying benefitial task relations for mulit-task learning in deep neural network

Identifying benefitial task relations for multi-task learning in deep networks

Joachim Bingel, Anders Sogaard

University of Copenhagen

multi-task的优势是能够减少训练数据的需求,并且作为正则项使得模型更robust.已经有一些理论保证了在某些情况下,multi-task learning能够起作用.

在deep learning中, hard parameter sharing是非常常见的.有点是 (1)很常见的regularizer (2)容易实现.

multi-task经常被当做matrix regularizer,每一个model对应一行.常见的训练方式叫做mean-constrained learning,是使用matrix mean当作每一个模型的参数.

NLP的multi-task侧重于,使用基于RNN的sequence labeling.我们使用双向LSTM作为一层单独的hidden layer,维度为100,在所有task之间都共享.输入是100维度的GloVe embedding.

在我们的MTL设定中,每一个训练step都是单独唯一的task.这种训练方式很有意思,以往都是multi-task同时训练,这次是每次iteration,单独训练一个single task,这样就没有我们在multi-task中的对feature matrix missing data问题.

根据表4,确定了最好描述MTL gain的是描述学习曲线的特征.一个重要的分析是:当main task的学习曲线比较平缓,而其他的辅助任务的学习曲线比较陡峭,MLT效果明显.换句话说,multi-task gain会发生在目标target非常快的进入平稳,而辅助任务不平稳.