谷歌可能犯有性别歧视，但肯定犯有糟糕的数据分析

原文：https://medium.com/hackernoon/google-may-be-guilty-of-gender-discrimination-but-is-definitely-guilty-of-bad-data-analysis-d6f769a92f21

如果你还没听说，谷歌是一起关于性别歧视的集体诉讼的目标。(鉴于我们对硅谷更普遍的了解，我知道这令人震惊。)这起诉讼的部分推动力是员工领导的收集薪酬数据的努力，这些数据显示公司里男性的薪酬高于女性。然而，有趣的是，这些数据本身并不能说明歧视是否存在。(不要停止阅读，我不是在谷歌团队，只是在“正确使用数学”团队)

从数据的角度来看，证明歧视可能有些困难。例如，我们听到经常被引用的“男性每挣 1 美元，女性就挣 77 美分”的统计数据，但这个数字并没有真正告诉我们多少，因为很可能是这样的情况，女性自愿选择低收入的职业和工作，选择工作更少的时间，等等。(另一方面，我们也不能排除用这个数字的歧视假说，现实是在中间的某个地方。理想情况下，寻找歧视的方法是比较其他方面相当的男性和女性，看看在匹配的群体中是否仍然存在薪酬差异。从数学角度来看，这基本上是经济学家在用“控制变量”进行回归时所做的事情——这些变量吸收了除性别之外的其他因素造成的薪酬差异，以估计“其他条件相同”类型的影响——在这种情况下，就是女性的影响。

谷歌的员工似乎精通他们的应用数学，因为他们整理了一份分析报告，这样他们就可以做出如下陈述:

谷歌表示，根据其 1 月份的分析，考虑到地点、任期、工作角色、级别和表现等因素，女性员工的收入是男性的 99.7%。

从表面上看，这似乎表明显著的性别歧视并没有在数据中显示出来。但是…这很重要…这个例子强调了做数学和做数据分析(或者，更仁慈地说，数据科学)之间的区别——虽然这个结论在数学上可能是正确的，但它基本上是对计量经济学工具的“垃圾进，垃圾出”的使用。简单地说，如果你试图隔离性别歧视，你不能只是盲目地控制那些本身可能是性别歧视结果的事情！这就像观察饮食对健康的影响，并使用体重作为控制变量——当然，你会得到一个“其他一切都一样”的结果，但这没有意义，因为体重可能是饮食和健康结果之间的一个环节。(换句话说，分析将估计特定饮食与不遵循饮食但最终体重与遵循饮食的人相同的人相比的影响，这可能不是你想要进行的比较。)

如果你不相信我，也许一个劳动经济学家和一个计量经济学文本会说服你:

通过这种方式，谷歌在公司性别歧视的特殊性质方面透露了相当多的信息——如果一旦将职称和绩效评估考虑在内，男性和女性的薪酬相同，那么性别歧视(如果存在的话)要么通过将女性集中到不同角色/级别的工作中，要么在绩效评估中显示出反女性(或支持男性)的偏见。(此外，如果“级别”已经设定了工资级别，正如源文章所暗示的那样，控制级别在很大程度上相当于假设结论。)

事实证明，我的怀疑很中肯，鉴于诉讼的具体要求。如果你恰当地看待数据，你能从数据中学到的东西是惊人的。在前世，我是一名经济顾问，这基本上意味着我帮助准备专家证词，用于涉及经济问题的诉讼。我最不愿意做的就是成为专家证人，在这里反驳谷歌的垃圾计量经济学。