Gradient Harmonized Single-stage Detector

Gradient Harmonized Single-stage Detector

CUHK

Intro

class imbalance可以被认定为是训练难易上的不均匀,而训练难易上的不均匀可以被认为是gradient norm分布的不均匀。当一个样本被很好的分类之后,它只会产生很小的magnitude of gradient;而被误分类的样本会吸引更多的“关注”,也就是对gradient descent的影响更大(这也是我们观测到的)。但这个如何与gradient norm产生关系?

另外,我们也想说这种不均衡的样本分布可以由其gradient norm分布确定。

但是

  1. gradient norm分布本身并不是固定的,随着模型的训练而改变
  2. 在训练前并无法确定其难易程度,如何使用是一个问题
  3. 不同的model capacity/measurement会带来不同的结论

GHM做的事情就是让大部分easy example产生的gradient变得不那么重要。(类似我们的想法,只要是well classified,就将其gradient置为0;这也类似multi-layer perceptron)

Gradient Harmonizing Mechanism

Gradient Density

$$ GD(g) = \frac{1}{l\epsilon(g)} \sum{k=1}^N \delta_\epsilon(g_k, g)

$$

其中$$g_k$$是的k个样本的gradient norm,而

$$ \delta_\epsilon(x,y) = \begin{cases} 1, \, \, \text{if } y-\epsilon/2 \le x \le y+\epsilon/2 \ 0 \end{cases}

$$

results matching ""

    No results matching ""