Learning Multiple Tasks with Multilinear Relationship Networks

Mingsheng Long, Zhangjie Cao, Jianmin Wang, Philip S. Yu

Intro

这篇paper引入了multilinear relationship networks（MRN）来学习task relatedness。相关的task可以用于当作inductive bias。知道task relationship可以使我们在相关的task上transfer shared knowledge。这种task relatedness的想法引申出了两类应用：multi-task feature learning，和multi-task relationship learning。

学习inherent task relatedness本质上是一个比较困难的问题，因为每一个task都可能对应于不同的数据分布。而且，如果cross-task knowledge transfer如果很难实现，那么我们很可能会因为有限的数据而导致overfitting。一种解决这个问题的办法是使用external data source，比如ImageNet来学习transferable feature。这个想法引申出了一种想法是多个task共享feature layer/representation，而在classifier上使用各自独立的layer。类似TreeNet结构。

但上述的做法并没有考虑到task relatedness。最近也有paper表明了，在所有layer之间进行feature transfer，会随着task数目减少，而增加task dissimilarity的情况，从而导致negative transfer。

这篇paper提出了multilinear relationship network （MRN）就会发现task relationships。

Tensor Normal Distribution

tensor normal distribution是multivariate normal distribution和matrix-variate normal distribution到tensor-variate distribution的延伸。

$$x \in \mathbb{R}^{d_1}$$是order-1,维度是$$(d_1)$$。

$$X \in \mathbb{R}^{d_1 \times d_2}$$是order-2,维度是$$(d_1, d_2)$$。

$$\mathcal{X} \in \mathbb{R}^{d_1 \times \dots \times d_k}$$是order-K tensor，维度是$$(d_1, \dots d_k)$$。

换句话说，vector和matrix都只是tensor的特例。

tensor normal distribution假设covariance matrix可以讲解为Kronecker product。

Multilinear Relationship Networks

在一个Bayesian框架下，既考虑transfer feature，又考虑task relationship。

定义了tensor normal distribution，从而提出了一个新的目标函数。因为是non-convex，所以采取alternatively optimize：固定一些变量，优化其他变量。

Appendix

大致上还是提出了一个新的objective function，通过在数据集上成功执行证明了其有消息。不过最好还是有theory。另外说是解决了negative transfer，但是并没有很好抓住这一点，result中的几个table没有显示相关内容。

Learning Multiple Tasks with Multilinear Relationship Networks

Learning Multiple Tasks with Multilinear Relationship Networks