Large-scale Multi-label Learning with Missing Labels

Hsiang-Fu Yu, Prateek Jain, Purushottam Kar, Inderjit S. Dhillon

UTA, MS

Intro

multi-label分类问题有两个challenge

这篇paper同时解决了这两个问题，使用了Empirical Risk Minimization （ERM）框架。

针对于问题1，常用的解决方案是label space reduction，也就是减少label-space的维度，通过random projection或者canonical correlation analysis(CCA) based projection。但这种投影的方法有局限。

这篇paper提出了一个更加直接的方法，将问题狗造成一个low-rank linear model的学习过程。$$y^{pred} = Z^T x$$，然后转换成传统的ERM问题，从而能够使用各类的loss function和regularization。

对于每一个data point $$i$$，$$d_i^j = 0/1$$分别表示absent或者present。

目标函数 loss function就是 $$l(y, f(x;Z)) = \sum_j l( y_j, f_j(x;Z))$$。假设label之间有很强的相互关系，那么我们可以学习一个low-rank matrix $$Z$$。所以能有以下的模型：

$$ \hat Z = arg\, \underset{Z}{min} J(Z) = \sumi^n \sum_j^L l(Y{ij}, f^j(x_i;Z)) + \lambda \cdot r(Z)\ s.t. rank(Z) \le k

其中n个data points，L个label。

类似的设计也可以运用到missing labels的情况。

有一种更加高效的解决方案。

$$Z = W H^T$$, where $$W \in \mathbb{R}^{d \times k}, H \in \mathbb{R}^{L \times k}$$。$$|Z|_{tr} = \frac{1}{2} ( |W|_F^2 + |H|_F^2 )$$。

所以最后要优化的函数就是

$$J\Omega(W,H) = \underset{ (i,j) \in \Omega}{\sum} l(Y{(i,j)}, x_i^T W h_j) + \frac{1}{2} (|W|_F^2 + |H|_F^2)$$

然后可以发现当$$W$$和$$H$$任何一个fix的时候，$$J(W,H)$$都是convex function。所以可以通过迭代求解：

$$ H^{t} \leftarrow arg \, \underset{W}{min} \, J\Omega(W^{(t-1)}, H) \ W^{t} \leftarrow arg \, \underset{H}{min} \, J\Omega(W, H^{(t)})