Learning Multiple Tasks with Multilinear Relationship Networks
Learning Multiple Tasks with Multilinear Relationship Networks
Mingsheng Long, Zhangjie Cao, Jianmin Wang, Philip S. Yu
Intro
这篇paper引入了multilinear relationship networks(MRN)来学习task relatedness。相关的task可以用于当作inductive bias。知道task relationship可以使我们在相关的task上transfer shared knowledge。这种task relatedness的想法引申出了两类应用:multi-task feature learning,和multi-task relationship learning。
学习inherent task relatedness本质上是一个比较困难的问题,因为每一个task都可能对应于不同的数据分布。而且,如果cross-task knowledge transfer如果很难实现,那么我们很可能会因为有限的数据而导致overfitting。一种解决这个问题的办法是使用external data source,比如ImageNet来学习transferable feature。这个想法引申出了一种想法是多个task共享feature layer/representation,而在classifier上使用各自独立的layer。类似TreeNet结构。
但上述的做法并没有考虑到task relatedness。最近也有paper表明了,在所有layer之间进行feature transfer,会随着task数目减少,而增加task dissimilarity的情况,从而导致negative transfer。
这篇paper提出了multilinear relationship network (MRN)就会发现task relationships。
Tensor Normal Distribution
tensor normal distribution是multivariate normal distribution和matrix-variate normal distribution到tensor-variate distribution的延伸。
$$x \in \mathbb{R}^{d_1}$$是order-1,维度是$$(d_1)$$。
$$X \in \mathbb{R}^{d_1 \times d_2}$$是order-2,维度是$$(d_1, d_2)$$。
$$\mathcal{X} \in \mathbb{R}^{d_1 \times \dots \times d_k}$$是order-K tensor,维度是$$(d_1, \dots d_k)$$。
换句话说,vector和matrix都只是tensor的特例。
tensor normal distribution假设covariance matrix可以讲解为Kronecker product。
Multilinear Relationship Networks
在一个Bayesian框架下,既考虑transfer feature,又考虑task relationship。
定义了tensor normal distribution,从而提出了一个新的目标函数。因为是non-convex,所以采取alternatively optimize:固定一些变量,优化其他变量。
Appendix
大致上还是提出了一个新的objective function,通过在数据集上成功执行证明了其有消息。不过最好还是有theory。另外说是解决了negative transfer,但是并没有很好抓住这一点,result中的几个table没有显示相关内容。