Data Decisions and Theoretical Implications when Adversarially Learning Fair Representations

Alex Beutel, Jilin Chen, Zhe Zhao, Ed H. Chi

Google Research



一种常见bias的原因是data skewness。比如有一类用于在训练数据中被under-represented。而最近的work也没有太在意这类问题。


这就带来两个条件 1. 本身模型训练就要考虑到数据本身的稀缺和分布不均匀 2. 当de-biased模型训练完并且应用到分类器上的时候,不能依赖于这个信息:当前这个样例是否来自于protected class

这里我们使用adversarial learing来学习这个de-bias latent representation。我们构建一个multi-head DNN,其中这个模型是试图用一个head预测目标类别,而同时防止第二个head能够准确预测敏感特征。这篇paper贡献如下

  1. 从理论上将不同fairness的定义与adversarial training目标和dataset的选择连接起来
  2. 我们实验上探究了多少数据足够训练一个有效的de-bias ML模型
  3. 实验上研究了 在adversarial learning effect中 不同的数据分布是如何作用影响模型的fairness

Model Structure and Learning

流程为$$x \to g(x) \to f(g(x))$$,其中$$g(x)$$被当作中间隐藏层。


我们假设还是能在$$X$$的某一个子集观测到特征$$Z$$,叫做$$S$$。然后我们训练第二个分类器$$a(g(S))=Z$$。这里的顺序就是$$S \to g(S) \to a(g(S))$$。

我们的目标是得到一个$$f(g(x))$$来预测$$Y$$,同时希望$$a(h)$$来尽可能好的预测$$Z$$;而$$g()$$要使得adversary $$a()$$的预测变得困难。具体过程描述在3.2节中。为了实现上述描述的算法,特地使用了一个identify function with negative gradient $$J_\lambda$$,简单理解就是图1中的两个部分,左半边用gradient descent,而后半边用gradient ascent。其效果就是当我们目标训练在将分类$$Y$$更加精确的同时,将$$Z$$预测的结果变差。

  • Reconstruction error is not included.
  • Negative gradient.
  • If the adversarial head uses data $$S$$ with both $$Y=0$$ and $$Y=1$$, then the model will be encouraged to never encode information about $$Z$$; hidden layer $$g(x)$$ will be uncorrelated with $$Z \to$$ demographic parity/statistical parity. $$P(\hat Y | Z=0) = P(\hat Y | Z=1)$$
    • with $$Y=1$$ only: $$g$$ should be uncorrelated with $$Z$$ when $$Y=1$$. $$P(\hat Y = 1 | Y=1, Z=0) = P(\hat Y = 1 | Y=1, Z=1)$$
    • with $$Y=1$$ only: $$g$$ should be uncorrelated with $$Z$$ when $$Y=0$$. $$P(\hat Y = 0 | Y=0, Z=0) = P(\hat Y = 0 | Y=0, Z=1)$$

Data Selection and Fairness Definition


如果我们的adversarial部分同时包含了$$Y=0,1$$,那么我们训练的模型就会不包含关于特征$$Z$$的信息。这种特征$$Z$$和标签$$Y$$之间的独立性被称作demographic parity。





