Powered by GitBook

GradNorm: Gradient Normalization for Adaptive Loss Balancing in Deep Multitask Networks

GradNorm: Gradient Normalization for Adaptive Loss Balancing in Deep Multitask Networks

The GradNorm Algorithm

核心观点是在multi-task训练中，loss大的task对应的gradient也大，从而会产生dominant效应。

不同task之间的gradient 2 norm会不平衡，从这点出发，将不同task之间的权重进行rescaling。

Appendix

这是目前看起来和我的work非常贴近的一条路。还缺一点理论证明，但是方向不错，是个不错的尝试。

results matching ""

No results matching ""