One pixel attack for fooling deep neural networks
One pixel attack for fooling deep neural networks
Jiawei Su, Danilo Vasconcellos Vargas, Sakurai Kouichi
Kyushu University
Intro
最近有很多paper提出了通过给图片增加非常小的perturbation,来攻击DNN模型。这里提出了非常极端的情况,也就是one-pixel perturbation。并且发现70%的图片都会被这个one-pixel attack影响到。
这篇paper提出了black-box DNN attach,设定是只知道probability labels,而不需要知道DNN的内部情况,比如gradient和network structure。
Methodology
Problem Description
$$x = (x_1, ..., x_n)$$是n-dimensional instance image。这里一个dimension指的就是一个pixel代表的空间。
$$f$$是DNN
$$f_t(x)$$是将instance $$x$$分类为$$t$$的概率
vector $$e(x) = (e_1, ..., e_n)$$是additive adversarial perturbation
目标是改成label $$adv$$
$$L$$是最多修改几个pixel
由此会有如下的优化问题
$$ max{e(x)^*} = f{adv}(x + e(x)) \ s.t. | e(x) | \le L
$$
在这篇paper的设定下,限制条件会再改变一下。one-pixel attack中,令$$d=1$$,
$$ s.t. | e(x) |_0 \le d
$$
Differential Evolution
DE是一种evolutionary algorithms(EA),并且不需要gradient信息,也不需要objective function可导或已知。因此DE的适用范围很广。
Method and Settings
我们将perturbation编码到array中,然后使用DE求解。每一个array/candidate solution都有固定perturbations(改变的pixel点),并且每一个perturbation都包含了五个元素,x和y,RGB改变之后的数值。
一开始有400个初始点,然后每次循环根据这400个father点,随机生成400个children点,然后比较哪个更好。更加max的点会继续到下一层循环。
Appendix
DE是不需要gradient knowledge