Max-margin Class Imbalance Learning with Gaussian Affinity

Munawar Hayat, etc.

Intro

我提出一个假设：提高generalization capability能够提升在imbalanced dataset上的学习。这里我们第一个提出了混合的loss function：同时进行classification和clustering。我们方法基于欧式空间的affinity measure，它有以下三个特点

直接强制classification boundary最大化
能保证均一、等距离的聚合中心
在特征空间上，能够学习多种class prototype

Max-margin Framework

Soft-max Loss

深度网络就是将input $$x_i$$ 转换到一个feature space $$f_i$$ 使用某个函数$$F$$, $$f=F(x;\theta)$$。然后softmax就是计算prediction和ground-truth之间的不一致性。

$$ L{sm} = \frac{1}{N} \sum_i -\log (\frac{ \exp (w{yi}^T f_i) }{\sum_j exp(w_j^T f_i) })

对于第i个sample和第j个类。

尽管softmax是multi-class分类中很常用的方法，但是我们想说对于class imbalance问题，它有很多限制。

Limitation of SL: soft-max只是计算了feature representation $$f_i$$ 和每一个class vector $$w_j$$ 之间的inner product。而目标是将feature representation很好的aligh with target class vector，使得其likelihood最大。由于这个计算依赖于内积，因此有以下问题：

没有机制保证max margin的限制。Large margin constraints对于imbalanced分布体现了更好的generalization。
学习到的projection vector在整个分类空间中不一定等距离分布。有些样本比较多的class在projection space占的空间更大。（打这个也许正是我们希望的，我们希望这个space中多数class就应该占多数，只要我们能保证这个projection是正确的。所以这点不同意。）
每一个class vector长度不一样，也就是 $$|w_j|_2$$的norm不一样。

Unsuitability of SL for Imbalanced Learning: 上述的几个限制并不是直接要求max-margin constraints。考虑到soft-max loss，我们可以将这个表达简化为

$$ L{sm}^i \propto \sum{j \ne yi} \exp (w_j^T f_i - w{y_i}^T f_i)

对于一个class pair $${j, k}$$的decision boundary是当$$wj^T F(x) = w_k^T F(x)$$，也就class pair之间share的部分。另外，$$L{sm}^i$$也要求了$$w_j^T F(x) > w_k^T F(x): k \ne j$$。这只是一个相对的constraint，因此soft-max loss并不必要要求

减少intra-class variations
强制class pair之间的margin

为了解决这个问题，我们提出了新的方案。

Max-margin Learning with Hybrid Objective

Euclidean space similarity measure： 将向量的dot product，换成在欧式空间上的Gaussian similarity measure（Bergman divergence），来计算class similarities。

$$ d(f_i, w_j) = \exp (- \frac{| f_i - w_j | ^2}{\sigma})

这有给我们提供了这么几个好处 (1) 强制要求margin maximizing constraints (2) 不同类别可以在空间上分布大致平均，equi-spaced (3) 控制学习到的cluster中的variance (4)在欧式空间中使用standard distance measure (5)同时进行分类和聚合

Relation between Dot-product and Gaussian Similarity: 他们俩之间的关系如下

$$ d(f_i, w_j) = \exp (- \frac{|f_i|^2 + |w_j|^2 - 2\langle w_j, f \rangle}{\sigma})

$$ \langle w_j, f \rangle = \frac{\sigma \log d(f_i, w_j) + | f_i|^2 + | w_j |^2}{2}

上面两个式子隐含了feature vector的scale/magnitude与class prototype之间的关系。有两个结论(1)gaussian similarity是在[0,1]之间，而dot product可以很大 (2)gaussian similarity和dot product很相似，当所有的vector都normalize之后。但是最重要的一点是，我们提出的loss可以明确的进行margin constraints。下面进行介绍。

Enforcing margin between classes： 我们提出这个max margin loss

$$ L{mm} = \sum_j \max(0, \lambda + d(f_i, w_j) - d(f_i, w{y_{i}})): j \ne y_i

$$\lambda$$是enforced margin（理解为一个超参）。

Uniform classification regions: 增加一个diversity regularizer，来保证equi-distant weight vectors。这个diversity regularizer保证所有的类在空间中都均匀分布。

$$ R(w) = E[ (| wj - w_k |^2 - \mu)^2 ], s.t. j < k \ \mu = \frac{2}{C^2 - C} \sum{j < k} | w_j - w_k |^2

其中$$\mu$$是所有类的mean distance

Max-margin Class Imbalance Learning with Gaussian Affinity

Max-margin Class Imbalance Learning with Gaussian Affinity