One pixel attack for fooling deep neural networks

One pixel attack for fooling deep neural networks

Jiawei Su, Danilo Vasconcellos Vargas, Sakurai Kouichi

Kyushu University

Intro

最近有很多paper提出了通过给图片增加非常小的perturbation,来攻击DNN模型。这里提出了非常极端的情况,也就是one-pixel perturbation。并且发现70%的图片都会被这个one-pixel attack影响到。

这篇paper提出了black-box DNN attach,设定是只知道probability labels,而不需要知道DNN的内部情况,比如gradient和network structure。

Methodology

Problem Description

$$x = (x_1, ..., x_n)$$是n-dimensional instance image。这里一个dimension指的就是一个pixel代表的空间。

$$f$$是DNN

$$f_t(x)$$是将instance $$x$$分类为$$t$$的概率

vector $$e(x) = (e_1, ..., e_n)$$是additive adversarial perturbation

目标是改成label $$adv$$

$$L$$是最多修改几个pixel

由此会有如下的优化问题

$$ max{e(x)^*} = f{adv}(x + e(x)) \ s.t. | e(x) | \le L

$$

在这篇paper的设定下,限制条件会再改变一下。one-pixel attack中,令$$d=1$$,

$$ s.t. | e(x) |_0 \le d

$$

Differential Evolution

DE是一种evolutionary algorithms(EA),并且不需要gradient信息,也不需要objective function可导或已知。因此DE的适用范围很广。

Method and Settings

我们将perturbation编码到array中,然后使用DE求解。每一个array/candidate solution都有固定perturbations(改变的pixel点),并且每一个perturbation都包含了五个元素,x和y,RGB改变之后的数值。

一开始有400个初始点,然后每次循环根据这400个father点,随机生成400个children点,然后比较哪个更好。更加max的点会继续到下一层循环。

Appendix

DE是不需要gradient knowledge

results matching ""

    No results matching ""