Deep Defense: Training DNNs with Improved Adversarial Robustness

Deep Defense: Training DNNs with Improved Adversarial Robustness

Ziang Yan, Yiwen Guo, Changshui Zhang

Intro

image当中有一些perturbation,也有很高的概率导致(哪怕是最新的)DNN模型被misclassify。

尽管听上去很有趣,但是这类性质会导致严重的问题:自动驾驶系统或者使用人脸识别付费。这与随机噪声的不稳定性不一样(随机噪声在理论和实际上都没有那么严重),由adversarial perturbations带来的脆弱性是非常严重的。Godfellow说,DNN这么脆弱的原因是因为其本质还是显现的,而不是非线性或者过拟合。

这里我们提出了deep defense,是adversarial regularization方法来训练DNN,并且robustness有所提升。与现有方法不同(制造untight bound),我们将perturbation-based regularizer整合到了classification objective。这使得模型能够直接从attach中学习,并且进行抵抗。

Our Deep Defense Method

很多现有的方法都是估计目标函数,这会带来精确度上的问题。

Generate Adversarial Examples

使用L2 DeepFool作为一个例子。它能够100%成功率攻击advanced networks。

$$\Delta_x = r^{(0)} + ... + r^{(u-1)}$$,其中第i个附加值 $$r^{(i)}$$可以通过泰勒展开式和解决以下问题得到:

$$\min_r |r|_2 $$ s.t. $$f(x+\Delta_x^{(i)} ) + \nabla f(x+\Delta_x^{(i)})^T r = 0$$

其中$$\Deltax^{(i)} = \sum{j=0}^{i-1} r^{(j)}$$,$$\nabla f$$代表的是f的gradient w.r.t. 输入图像。

且其closed-form solution是 (?)

$$r^{(i)} = - \frac{f(x+\Delta_x^{(i)})}{|\nabla f(x+\Delta_x^{(i)} )|_2} \nabla f(x+\Delta_x^{(i)} )$$

Perturbation-based Regularization

results matching ""

    No results matching ""