面部识别技术面临性别偏见

在1960年代, 伍德罗·布莱索 创建了一个秘密程序,该程序可以手动识别人脸上的点,并将这些坐标与其他图像之间的距离进行比较。

面部识别偏差

面部识别技术 从那以后已经走了很长一段路。该领域发展迅速,软件现在可以实时自动处理数量惊人的面部数据,从而大大提高了各种用例中的匹配结果(和可靠性)。

尽管我们已经看到了所有的进步,但是许多组织仍然依赖Bledsoe数据库所使用的相同算法-被称为“ k最近邻居”或 神经网络。由于每个面部都有多个坐标,因此要比较数百万个面部图像上的距离,需要进行大量的数据处理。 神经网络算法简化了此过程,并通过显着减少数据集使匹配这些点变得更加容易。但这只是等式的一部分。面部识别还涉及在评估特征之前先在面部上找到特征的位置。这需要不同的算法,例如 (我们稍后会介绍)。

问题

如今,用于面部识别的算法严重依赖机器学习(ML)模型,这需要大量的训练。不幸的是,培训过程可能会导致这些技术出现偏差。如果训练中没有代表性的样本,则ML将无法正确识别错过的种群。

尽管在为社交媒体平台匹配人脸时这可能不是一个重大问题,但当政府机构和执法部门使用来自亚马逊,谷歌,Clearview AI等公司的人脸识别软件时,其危害可能更大。

先前对此主题的研究发现面部识别软件会遭受种族偏见的困扰,但是总的来说,关于偏见的研究很少。这种偏见的后果对个人和公司而言都是可怕的。更为复杂的是,即使人的脸,头发或化妆的微小变化也会影响模型精确匹配人脸的能力。如果不加以考虑,这在尝试利用面部识别技术来识别女性时可能会带来不同的挑战,女性通常比男性更倾向于使用美容和自我护理产品。

了解面部识别软件中的性别歧视

基于性别的错误识别有多严重?我们在WatchGuard的团队进行了一些其他的面部识别 研究,仅着眼于性别偏见即可找到答案。结果令人大开眼界。我们评估的解决方案误认女性的可能性比男性高18%。

您可以想象这种偏见可能产生的可怕后果。例如,依赖于面部识别的智能手机可能会阻止访问,使用面部识别软件的警务人员可能会错误地将无辜的旁观者识别为罪犯,或者政府机构可能会根据错误的匹配要求错误的人进行讯问。清单继续。现实情况是,这些问题背后的罪魁祸首是模型训练中的偏差,从而导致结果产生偏差。

让我们探讨一下我们如何发现这些结果。

我们的团队执行了两个单独的测试-首先使用 亚马逊认可 第二个使用 Dlib。不幸的是,由于透明度问题,尽管有了Amazon Rekognition,我们无法解开他们的ML模型和算法的工作原理(尽管我们认为它与Dlib类似)。 Dlib是一个不同的故事,它使用本地资源来识别提供给它的面孔。它经过预先训练以识别人脸的位置,并使用人脸位置查找器HOG(一种较慢的基于CPU的算法)和CNN(一种更快的算法),利用了图形卡中的专用处理器。

两种服务都提供带有其他信息的匹配结果。除了找到匹配项外,还会给出相似度评分,以显示人脸必须与已知人脸相匹配的程度。如果文件上的面孔不存在,则相似分数设置为低可能会错误地匹配面孔。但是,人脸的相似度得分较低,并且在图像无法清晰显示人脸时仍然可以匹配。

对于数据集,我们使用了一个名为 野外标记的面孔,而我们仅调查与数据库中另一张脸相匹配的脸。这使我们可以同时测试匹配的面孔和相似性分数。

亚马逊认可正确识别了我们提供的所有图片。但是,当我们更仔细地查看所提供的数据时,我们的团队发现女性面孔的相似性分布比男性面孔更为广泛。我们发现,与男性相比,具有更高相似度的女性面孔比男性具有更多相似性的女性面孔(这实际上与 最近的研究 大约在同一时间执行)。

这是什么意思?从本质上讲,这意味着在数据库中找不到的女性面孔更可能提供错误的匹配。另外,由于女性面孔的相似度较低,因此我们的团队有信心,如果给与足够的面孔图片,我们在识别男性男性面孔上会发现更多错误。

亚马逊认可提供了准确的结果,但是在男性和女性面孔之间缺乏一致性和准确性。男性面孔平均相似度为99.06%,而女性面孔平均相似度为98.43%。这看起来似乎不是一个很大的差异,但是当我们查看离群值时,差距拉大了-男性的标准偏差为1.64,女性为2.83。女性面孔的平均距离要比男性面孔的平均距离远,这意味着根据我们的数据,女性错误匹配的可能性远大于0.6%的差异。

Dlib的表现不佳。平均而言,Dlib误认女性的面孔多于男性,导致误认女性的平均比例增加了5%。使用较慢的HOG比较人脸时,差异增加到18%。有趣的是,我们的团队发现,使用Dlib时,女性面孔的平均相似度得分要高于男性,但与Amazon Rekognition一样,相似度得分也较大,导致准确性下降。

解决面部识别偏差

不幸的是,面部识别软件提供商在解决方案的有效性方面一直难以做到透明。例如,我们的团队没有在Amazon文档中找到任何位置,用户可以在该位置对软件进行正向或负向匹配之前查看处理结果。

不幸的是,这种准确性的假设(以及提供者缺乏上下文)可能会导致越来越多的不必要的逮捕事件,例如 这个。面部识别模型极不可能在短期内达到100%的准确性,但业界参与者仍必须专注于提高其有效性。知道这些程序在当今存在偏见,执法机构和其他组织应该将它们用作许多工具之一,而不是作为最终的资源。

但是有希望。如果该行业能够诚实地承认并解决面部识别软件中的偏见,那么我们可以共同努力改善模型训练和结果,这不仅可以减少基于性别的歧视,而且还可以帮助减少种族和其他变量的错误识别。

分享这个