GradNorm: Gradient Normalization for Adaptive Loss Balancing in Deep Multitask Networks

GradNorm: Gradient Normalization for Adaptive Loss Balancing in Deep Multitask Networks

The GradNorm Algorithm

核心观点是在multi-task训练中,loss大的task对应的gradient也大,从而会产生dominant效应。

不同task之间的gradient 2 norm会不平衡,从这点出发,将不同task之间的权重进行rescaling。

Appendix

这是目前看起来和我的work非常贴近的一条路。还缺一点理论证明,但是方向不错,是个不错的尝试。

results matching ""

    No results matching ""