Max-margin Class Imbalance Learning with Gaussian Affinity
Max-margin Class Imbalance Learning with Gaussian Affinity
Munawar Hayat, etc.
Intro
我提出一个假设:提高generalization capability能够提升在imbalanced dataset上的学习。这里我们第一个提出了混合的loss function:同时进行classification和clustering。我们方法基于欧式空间的affinity measure,它有以下三个特点
- 直接强制classification boundary最大化
- 能保证均一、等距离的聚合中心
- 在特征空间上,能够学习多种class prototype
Max-margin Framework
Soft-max Loss
深度网络就是将input $$x_i$$ 转换到一个feature space $$f_i$$ 使用某个函数$$F$$, $$f=F(x;\theta)$$。然后softmax就是计算prediction和ground-truth之间的不一致性。
$$ L{sm} = \frac{1}{N} \sum_i -\log (\frac{ \exp (w{yi}^T f_i) }{\sum_j exp(w_j^T f_i) })
$$
对于第i个sample和第j个类。
尽管softmax是multi-class分类中很常用的方法,但是我们想说对于class imbalance问题,它有很多限制。
Limitation of SL: soft-max只是计算了feature representation $$f_i$$ 和每一个class vector $$w_j$$ 之间的inner product。而目标是将feature representation很好的aligh with target class vector,使得其likelihood最大。由于这个计算依赖于内积,因此有以下问题:
- 没有机制保证max margin的限制。Large margin constraints对于imbalanced分布体现了更好的generalization。
- 学习到的projection vector在整个分类空间中不一定等距离分布。有些样本比较多的class在projection space占的空间更大。(打这个也许正是我们希望的,我们希望这个space中多数class就应该占多数,只要我们能保证这个projection是正确的。所以这点不同意。)
- 每一个class vector长度不一样, 也就是 $$|w_j|_2$$的norm不一样。
Unsuitability of SL for Imbalanced Learning: 上述的几个限制并不是直接要求max-margin constraints。考虑到soft-max loss,我们可以将这个表达简化为
$$ L{sm}^i \propto \sum{j \ne yi} \exp (w_j^T f_i - w{y_i}^T f_i)
$$
对于一个class pair $${j, k}$$的decision boundary是当$$wj^T F(x) = w_k^T F(x)$$,也就class pair之间share的部分。另外,$$L{sm}^i$$也要求了$$w_j^T F(x) > w_k^T F(x): k \ne j$$。这只是一个相对的constraint,因此soft-max loss并不必要要求
- 减少intra-class variations
- 强制class pair之间的margin
为了解决这个问题,我们提出了新的方案。
Max-margin Learning with Hybrid Objective
Euclidean space similarity measure: 将向量的dot product,换成在欧式空间上的Gaussian similarity measure(Bergman divergence),来计算class similarities。
$$ d(f_i, w_j) = \exp (- \frac{| f_i - w_j | ^2}{\sigma})
$$
这有给我们提供了这么几个好处 (1) 强制要求margin maximizing constraints (2) 不同类别可以在空间上分布大致平均,equi-spaced (3) 控制学习到的cluster中的variance (4)在欧式空间中使用standard distance measure (5)同时进行分类和聚合
Relation between Dot-product and Gaussian Similarity: 他们俩之间的关系如下
$$ d(f_i, w_j) = \exp (- \frac{|f_i|^2 + |w_j|^2 - 2\langle w_j, f \rangle}{\sigma})
$$
$$ \langle w_j, f \rangle = \frac{\sigma \log d(f_i, w_j) + | f_i|^2 + | w_j |^2}{2}
$$
上面两个式子隐含了feature vector的scale/magnitude与class prototype之间的关系。有两个结论(1)gaussian similarity是在[0,1]之间,而dot product可以很大 (2)gaussian similarity和dot product很相似,当所有的vector都normalize之后。但是最重要的一点是,我们提出的loss可以明确的进行margin constraints。下面进行介绍。
Enforcing margin between classes: 我们提出这个max margin loss
$$ L{mm} = \sum_j \max(0, \lambda + d(f_i, w_j) - d(f_i, w{y_{i}})): j \ne y_i
$$
$$\lambda$$是enforced margin(理解为一个超参)。
Uniform classification regions: 增加一个diversity regularizer,来保证equi-distant weight vectors。这个diversity regularizer保证所有的类在空间中都均匀分布。
$$ R(w) = E[ (| wj - w_k |^2 - \mu)^2 ], s.t. j < k \ \mu = \frac{2}{C^2 - C} \sum{j < k} | w_j - w_k |^2
$$
其中$$\mu$$是所有类的mean distance