GradNorm: Gradient Normalization for Adaptive Loss Balancing in Deep Multitask Networks
GradNorm: Gradient Normalization for Adaptive Loss Balancing in Deep Multitask Networks
The GradNorm Algorithm
核心观点是在multi-task训练中,loss大的task对应的gradient也大,从而会产生dominant效应。
不同task之间的gradient 2 norm会不平衡,从这点出发,将不同task之间的权重进行rescaling。
Appendix
这是目前看起来和我的work非常贴近的一条路。还缺一点理论证明,但是方向不错,是个不错的尝试。