Mor Shpigel Nacson, etc.
gradient descent中的implicit bias还没有被很好地理解。
这里检查convergence rate是如何由不同的loss function和variable step size影响。