Deep Defense: Training DNNs with Improved Adversarial Robustness

Ziang Yan, Yiwen Guo, Changshui Zhang

Intro

image当中有一些perturbation，也有很高的概率导致（哪怕是最新的）DNN模型被misclassify。

尽管听上去很有趣，但是这类性质会导致严重的问题：自动驾驶系统或者使用人脸识别付费。这与随机噪声的不稳定性不一样（随机噪声在理论和实际上都没有那么严重），由adversarial perturbations带来的脆弱性是非常严重的。Godfellow说，DNN这么脆弱的原因是因为其本质还是显现的，而不是非线性或者过拟合。

这里我们提出了deep defense，是adversarial regularization方法来训练DNN，并且robustness有所提升。与现有方法不同（制造untight bound），我们将perturbation-based regularizer整合到了classification objective。这使得模型能够直接从attach中学习，并且进行抵抗。

Our Deep Defense Method

很多现有的方法都是估计目标函数，这会带来精确度上的问题。

Generate Adversarial Examples

使用L2 DeepFool作为一个例子。它能够100%成功率攻击advanced networks。

$$\Delta_x = r^{(0)} + ... + r^{(u-1)}$$，其中第i个附加值 $$r^{(i)}$$可以通过泰勒展开式和解决以下问题得到：

$$\min_r |r|_2 $$ s.t. $$f(x+\Delta_x^{(i)} ) + \nabla f(x+\Delta_x^{(i)})^T r = 0$$

其中$$\Deltax^{(i)} = \sum{j=0}^{i-1} r^{(j)}$$，$$\nabla f$$代表的是f的gradient w.r.t. 输入图像。

且其closed-form solution是 (?)

$$r^{(i)} = - \frac{f(x+\Delta_x^{(i)})}{|\nabla f(x+\Delta_x^{(i)} )|_2} \nabla f(x+\Delta_x^{(i)} )$$

Deep Defense: Training DNNs with Improved Adversarial Robustness

Deep Defense: Training DNNs with Improved Adversarial Robustness