One pixel attack for fooling deep neural networks

Jiawei Su, Danilo Vasconcellos Vargas, Sakurai Kouichi

Kyushu University

Intro

最近有很多paper提出了通过给图片增加非常小的perturbation，来攻击DNN模型。这里提出了非常极端的情况，也就是one-pixel perturbation。并且发现70%的图片都会被这个one-pixel attack影响到。

这篇paper提出了black-box DNN attach，设定是只知道probability labels，而不需要知道DNN的内部情况，比如gradient和network structure。

$$x = (x_1, ..., x_n)$$是n-dimensional instance image。这里一个dimension指的就是一个pixel代表的空间。

$$f$$是DNN

$$f_t(x)$$是将instance $$x$$分类为$$t$$的概率

vector $$e(x) = (e_1, ..., e_n)$$是additive adversarial perturbation

目标是改成label $$adv$$

$$L$$是最多修改几个pixel

由此会有如下的优化问题

$$ max{e(x)^*} = f{adv}(x + e(x)) \ s.t. | e(x) | \le L

在这篇paper的设定下，限制条件会再改变一下。one-pixel attack中，令$$d=1$$，

$$ s.t. | e(x) |_0 \le d

DE是一种evolutionary algorithms（EA），并且不需要gradient信息，也不需要objective function可导或已知。因此DE的适用范围很广。

我们将perturbation编码到array中，然后使用DE求解。每一个array/candidate solution都有固定perturbations（改变的pixel点），并且每一个perturbation都包含了五个元素，x和y，RGB改变之后的数值。

一开始有400个初始点，然后每次循环根据这400个father点，随机生成400个children点，然后比较哪个更好。更加max的点会继续到下一层循环。

DE是不需要gradient knowledge