Deep Defense: Training DNNs with Improved Adversarial Robustness
Deep Defense: Training DNNs with Improved Adversarial Robustness
Ziang Yan, Yiwen Guo, Changshui Zhang
Intro
image当中有一些perturbation,也有很高的概率导致(哪怕是最新的)DNN模型被misclassify。
尽管听上去很有趣,但是这类性质会导致严重的问题:自动驾驶系统或者使用人脸识别付费。这与随机噪声的不稳定性不一样(随机噪声在理论和实际上都没有那么严重),由adversarial perturbations带来的脆弱性是非常严重的。Godfellow说,DNN这么脆弱的原因是因为其本质还是显现的,而不是非线性或者过拟合。
这里我们提出了deep defense,是adversarial regularization方法来训练DNN,并且robustness有所提升。与现有方法不同(制造untight bound),我们将perturbation-based regularizer整合到了classification objective。这使得模型能够直接从attach中学习,并且进行抵抗。
Our Deep Defense Method
很多现有的方法都是估计目标函数,这会带来精确度上的问题。
Generate Adversarial Examples
使用L2 DeepFool作为一个例子。它能够100%成功率攻击advanced networks。
$$\Delta_x = r^{(0)} + ... + r^{(u-1)}$$,其中第i个附加值 $$r^{(i)}$$可以通过泰勒展开式和解决以下问题得到:
$$\min_r |r|_2 $$ s.t. $$f(x+\Delta_x^{(i)} ) + \nabla f(x+\Delta_x^{(i)})^T r = 0$$
其中$$\Deltax^{(i)} = \sum{j=0}^{i-1} r^{(j)}$$,$$\nabla f$$代表的是f的gradient w.r.t. 输入图像。
且其closed-form solution是 (?)
$$r^{(i)} = - \frac{f(x+\Delta_x^{(i)})}{|\nabla f(x+\Delta_x^{(i)} )|_2} \nabla f(x+\Delta_x^{(i)} )$$