Robustness May Be at Odds with Accuracy

Robustness May Be at Odds with Accuracy

Dimitris Tsipras, etc.

MIT

On the Price of Adversarial Robustness

Adversarial robustness 考虑到adversarial sample而训练的模型更加robust。

Adversarial training 就是以adversarial samples作为样本的统计训练。

它有几个问题:因为每一个step都要重新计算perturbation,所以训练时间比较高。另外,也是我们要讨论的一个核心问题:robust classifier是不是在所有方面都比standard classifier要好?

Adversarial Training as a Form of Data Augmentation 在训练样本比较少的时候,robust training是有帮助的。但是随着adversarial样本的增加,这种帮助会慢慢减少,甚至有时候会使得generalization更差。

Adversarial robustness might be incompatible with standard accuracy

举了一个例子,说明了standard classification可以很好的预测,而robust classification会出错。

而造成这个问题的原因是robust features(不重要的特征)和non-robust features(重要的特征)。如果一个classifier为了获取很高的accuracy,那么就不可避免的要高度依赖non-robust features。但如果这些non-robust features可以随意更改,那么classifier的性能也会被影响到。我们依此提出了下面的theorem。(真的这个例子)

Theorem 2.1: 在数据D上,任何至少能获得$$1-\delta$$ standard accuracy的classifier,其robust accuracy有$$\epsilon - 2\eta$$的概率 至多为$$\frac{p}{1-p}$$当使用$$l_\inf$$-bounded adversary。

On the (non-)existence of an accurate and robust classifier 当数据无限多的多时候,standard classifier可以与robust classifier一样的性能。但注意到这与我们分析的场景不完全一样。这里的trade-off(theorem 2.1)是因为数据本身的分布问题,而不是数据量不足够。因此在这个特定类别的分类上,我们假设不存在一个模型既robust,又accurate。

这就与目前adversarial ML的一个常用假设相互违背:人类在标准数据上是既robust又accurate。但是这个常用的假设并没有被证明过。实际上,有一些实验表明了人类不如一些vision benchmark准确。

The importance of adversarial training

Theorem 2.2:

这个theorem说明了如果我们是为了训练一个robust model,adversarial training是必要的,必要是因为其产生的classifier与正确的label有比较弱的依赖。

Unexpected benefits of adversarial robustness

这一个section会介绍robust model学习到的representation也十分有帮助。

results matching ""

    No results matching ""