人脸识别背后的算法都有哪些偏见?

皮尤研究中心的一项最新研究发现,Facebook的新闻图片中,男性出现的频率是女性的两倍,且大部分的图片是关于男性的。

考虑到当下有43%的美国成年公民主要通过Facebook获取新闻资讯,皮尤研究中心使用机器视觉测试了2018年4月至6月期间17个全国性新闻媒体在Facebook上所发布新闻图片的性别比例情况。测试算法最终识别出了53067人,其中女性占33%,男性占67%,差距悬殊。但在现实生活中,美国人口的性别比例大致是均衡的。

那么,是谁在“扭曲”两性?

为何有时候,算法眼中的你处在可男可女的模糊地带?

进一步讲,性别之外还有哪些偏见?

为了应对这种状况,我们可以做些什么?

皮尤的这份报告指出,在Facebook上不同类型的新闻报道中,女性在图片中的“在场”情况始终低于男性。在与经济有关的帖子中,只有9%的图片为纯女性内容,与此形成鲜明对比的是,纯男性图像占到了69%。女性在娱乐新闻图片中拥有更多展示机会,但总体上仍低于男性。

抛开这些颗粒度更小的细节不谈,这份研究仍然揭示了一些值得警觉的现状:在Facebook新闻图像中,男性比女性更为突显;在两人或更多人的群像中,男性往往比女性多。同时,男性会占据更大的视觉空间。

研究人员还测量了图像中女性面部与男性面部的大小情况(目前的技术只能捕捉人脸的大小情况,忽略了头发、珠宝和头饰等因素的影响)。结果显示,男性面孔平均占到的图像面积更大,这种差异导致图像中男性平均面部尺寸比女性大出了10%。在Facebook的图像中,这表现为男性人物能给读者带来更大的视觉冲击。

在现实生活中,识别你周围人的性别再简单不过,但是对于计算机而言,它的工作需要经历怎样的步骤?

“在给算法‘喂入’成千上万个图像案例后,作为一个‘成熟的算法’,面部识别系统自己就能学会如何辨别男性和女性。”这种回答虽然可以解释上文的疑问,但对于“黑箱”外的我们,可能并不容易理解这一学习过程。

为了更好地了解这一过程中的规则,皮尤研究中心进行了一个有趣的实验,他们将自己中心工作人员的图像上传到机器视觉系统,并对图像内容进行部分遮挡,希望从中寻得规律,找到是哪些面部区域会让算法做出或改变决策。

在这个“人机博弈”的交互挑战中,你不妨也大胆猜测下,哪些部分影响了系统的判断?

首先,输入一张清晰的图片到机器视觉系统,此时,不管是算法还是你,都可以清楚地判断出照片中人物的性别。

接下来,照片中出现了若干方框,提示信息告诉你,“选中某一方框意味着,在图片中遮挡隐藏该部分内容,你的选择有可能影响性别判断。”

最后,当你完成选择后,图片将呈现出能影响性别分类改变的所有区域。

感兴趣的读者,可以登陆皮尤研究中心网站,自己动手完成这个小实验。

下面的这组图片,是互动实验中的部分结果图。当你选中了画面中紫色或者黄色的区域时,都会带来识别系统的决策改变。性别多元化的当下,在现实生活中,性别的识别虽也不易,但皮尤通过这个实验,更清楚地展示出,在算法系统中,让机器坚决肯定地说出被测试者的性别,实在太难了。

仔细看这张图,你还能发现什么?——有时,导致模型识别发生改变的人脸部分,或许和我们预期的有很大的出入。比如,第四张图中,遮住人们的脸部,会导致系统识别发生改变,但更多的时候,令算法产生相反判断的“干扰区域”,其实是脸部边缘、发根、嘴角等区域。

从这些实验案例中,你也许还发现了,没有一个统一、稳定的规律能够对这一现象进行解释。有时,遮住某个被测试的脸部中间会导致性别识别发生变化,但以同样方式遮住另一个,并不一定会得到相同的结果。

机器学习的确可以极大地提高我们处理数据的效率,但与传统的计算机程序不同,机器学习遵循一系列严格的步骤,它们的决策方式在很大程度上隐而不显,并且高度依赖于用来训练自身的数据。这些特点可能导致,机器学习工具产生更难以被人理解和提前预测到的系统性偏差。

从这个角度看,皮尤研究中心用一个简化的实验,展示了用于训练算法的数据是如何将隐藏的偏差、意外的错误引入到了系统结果中。研究人员表示,随着算法正在人类社会中发挥越来越重要的决策影响力,了解它们的局限、偏差具有重要意义。

最近,包括图灵奖获得者YoshuaBengio在内的26位AI领域顶尖研究者,在一篇公开博文中要求亚马逊立即停止向警方出售其人工智能服务AmazonRekognition。亚马逊云计算部门前首席科学家AnimaAnandkumar等人也加入了这一联合呼吁。

此前,多伦多大学的研究人员DeborahRaji和麻省理工学院媒体实验室的研究人员JoyBuolamwini撰写了研究报告,指出亚马逊的Rekognition在检测图像中肤色较深的女性性别时,要比判断肤色较浅男性性别的错误率高得多。该研究成果也得到了学者们的支持,但亚马逊曾对两人撰写的这篇报告及研究方法提出过异议。

亚马逊面部识别系统对不同肤色、性别的测试准确度

JoyBuolamwini主导了一个名为GenderShades的AI研究项目,在研究了各个领先科技公司的面部识别系统后发现,所有系统在识别男性脸孔上表现更佳,所有系统在识别浅色脸孔上的准确率更高。深色皮肤女性的平均识别错误率高达35%,深色皮肤男性的为12%,浅色皮肤女性为7%,浅色皮肤男性的错误率不超过1%。

面部识别系统的“偏见”可能带来什么?

Google将这位用户的朋友识别为“大猩猩”

“不管其正确性如何,面部识别技术都可能被滥用,”Joy说道。准确或者不准确地使用面部识别技术对他人的身份、面孔、性别进行分析,都可能侵犯到他人的自由。比如,不准确的识别可能会使得无辜者蒙冤,受到执法人员的无理审查,这并不是假想的情况。

英国非盈利组织“老大哥观察”(BigBrotherWatchUK)曾发布一份报告,强调伦敦警察厅使用的面部识别技术有超过90%的性别识别错误率。去年夏天,英国媒体报道了这样一则新闻,一名年轻黑人男性因为面部识别技术失误,被误认为嫌犯而在众目睽睽之下遭到警方搜身检查。

著名非裔记者、平权运动家IdaB.Wells被识别为男性。

当这些有偏差的识别系统被广泛应用到社会生活中,就可能导致更糟糕的后果。

JoyBuolamwini在TED上发表题为HowI'mfightingbiasinalgorithms的演讲

在同样的光线条件下,面部识别系统只能检测到浅肤色的参与者;只有戴上白色面具,才能检测出深肤色的参与者。“在人工智能工具确定人脸的身份或者辨别表情信息前,最基本的前提是,检测出人脸。但是,面部识别系统在检测黑皮肤个体上,屡次失败。我只能安慰自己,算法不是种族主义者,是自己的脸太黑了。”Joy说道。

偏差来自哪里?

不同系统对深肤色演员的识别数据不同

Facebook曾宣布,在名为LabeledFacesintheWild的数据集测试中,自己面部识别系统的准确率高达97%。但当研究人员查看这个所谓的黄金标准数据集时,却发现这个数据集中有近77%的男性,同时超过80%是白人。

为了在数据层就尽最大可能地剔除偏差,Joy提出,应当构建更具包容性的基准数据集。为了平衡基准数据,她列出了世界上妇女在议会所占比例最高的十个国家,其中卢旺达以超过60%的女性比例领先世界。考虑到北欧国家和少数非洲国家具有典型代表性,Joy选定了3个非洲国家和3个北欧国家,通过选择来自这些国家年轻、深肤色的个体数据来平衡数据集中的皮肤等类型。

正是基于这个更平衡的数据集,他们对亚马逊、Kairos、IBM、Face++等公司的面部识别系统进行了重新评估。在2018年8月的研究中,他们发现,亚马逊和Kairos在白人男性识别工作上表现优秀,但亚马逊对有色人种的女性面孔识别的准确率很低,仅为68.6%。

亚马逊的面部识别系统为奥普拉·温弗里的这张图片打上了男性标签,并给出了数据置信度

Joy表示,现实世界中的脸部识别要比实验检测更为复杂和困难,他们建立的基准数据集也并非完全经受得住考验,“但这就好比跑步比赛,在基准测试中的出色表现,起码能保证你不会刚起步就摔倒。”

即便在同样的基准下,面部识别系统的准确度数字可能也会发生变化。人工智能并不完美。在这种情况下,通过提供置信度给用户更具体的判断信息是一个有用的做法。

面部识别技术已经被广泛地应用在大规模监视、人工智能武器化和更多的执法环境中。但是,这项强大的技术是在没有得到充分监督的情况下,快速发展着。

为了减少对面部识别技术的滥用,算法正义联盟(AlgorithmicJusticeLeague)和隐私与技术中心(CenteronPrivacy&Technology)发起了“安全面孔承诺”(SafeFacePledge)活动。

在目前,包括亚马逊在内的很多科技公司尚未加入这一承诺。“根据我们的研究,贸然向执法部门或者政府机构出售面部识别系统将是不负责任的。”作为算法正义联盟创始人之一的Joy希望,在未来,更多的机构能加入到“安全面孔承诺”,能够负责任地、符合道义地为面部分析技术的发展付出行动。

毕竟,算法偏见的背后,其实是我们人类自己的偏见。

参考链接:

快报

2024-12-2722:58

证监会发布《期货经纪合同要素》等5项金融行业标准新闻稿

2024-12-2722:54

美国原油基金11月总亏损为1070万美元

2024-12-2722:43

深交所就修订主板和创业板《股票上市规则》公开征求意见

2024-12-2722:37

上交所:本周对68起拉抬打压、虚假申报等证券异常交易行为采取了书面警示等监管措施

2024-12-2722:35

深交所:本周共对134起证券异常交易行为采取了自律监管措施

2024-12-2722:33

COMEX期金日内跌超1%,现报2627.20美元/盎司

2024-12-2722:32

美股开盘:三大指数集体低开,大型科技股多数下跌

2024-12-2722:31

中百集团:店改后门店的销售实现一定的增长

2024-12-2722:24

上交所贯彻落实新公司法,完善自律监管业务规则体系

2024-12-2722:15

证监会就《上市公司信息披露暂缓与豁免管理规定》公开征求意见

2024-12-2722:04

达威股份:控股股东、实际控制人拟协议转让公司6%股份

2024-12-2722:01

【TCL中环:拟18亿元收购控股子公司中环晶体24.64%股权

2024-12-2721:55

贵州茅台:拟以30亿元至60亿元回购公司股份

2024-12-2721:53

*ST宁科:德运新豁免子公司中科新材8089万元债务

2024-12-2721:52

证券期货业网络安全联合应急演练明日举行,覆盖六大场景

2024-12-2721:50

联发科子公司加码投资Aeonsemi

2024-12-2721:35

美国11月先期商品贸易逆差1029亿美元,市场预估逆差1012亿美元

美国11月零售库存环比增长0.3%,预估增长0.3%

2024-12-2721:34

证监会就《上市公司信息披露管理办法》以及上市公司年报、半年报格式准则修订稿公开征求意见

THE END
1.通过机器学习让图像识别更精准更快速机器视觉是一种利用计算机系统分析和理解数字图像内容的手段。这项技术结合了计算机科学、电气工程和认知科学等多个领域,以模仿人类视觉系统工作原理来解析图片中的对象特征,从而能够执行诸如物体检测、分类以及跟踪等任务。 三、传统方法与挑战 传统图像处理算法依赖于手工设计的人类智慧,这限制了它们适应新环境或新类型数https://www.wbhgwbnd.com/ji-qi-ren/861790.html
2.图像识别算法都有哪些方法图像识别算法都有哪些方法 图像识别算法是计算机视觉领域的核心任务之一,它涉及到从图像中提取特征并进行分类、识别和分析的过程。随着深度学习技术的不断发展,图像识别算法已经取得了显著的进展。本文将介绍图像识别算法的主要方法,包括传统方法和基于深度学习的方法。https://www.elecfans.com/d/4033152.html
3.图像图像识别经典算法图像识别算法特征提取:从图像中提取有助于分类的特征。 模型训练:使用特征和标签数据集训练模型。 预测与分类:利用训练好的模型对新图像进行分类。 二、经典图像识别算法 1. Haar-like Features + AdaBoost (Viola-Jones) Viola-Jones算法是人脸检测领域的里程碑,它结合了Haar-like特征和AdaBoost算法。Haar-like特征简单且计算https://blog.csdn.net/yuzhangfeng/article/details/140436315
4.图像识别算法起源图像识别主流算法卫斯理的技术博客在图片识别方面,人工神经网络是应用最广泛、最有效的技术。神经网络同时执行许多数学过程,神经网络是面部识别系统的基础。 算法执行三个主要功能:识别图像、视频或实时流中的人脸;创建人脸的数学模型;并将模型与训练集或数据库进行比较以确认一个人的身份。 https://blog.51cto.com/u_12207/10760565
5.图片文字识别的算法分类算法中的难例图片判断华为云帮助中心为你分享云计算行业信息,包含产品介绍、用户指南、开发指南、最佳实践和常见问题等文档,方便快速查找定位问题与能力成长,并提供相关资料和解决方案。本页面关键词:图片文字识别的算法。https://support.huaweicloud.com/topic/306993-1-T
6.基于深度卷积神经网络的物体识别算法以上物体检测的方法都只是利用RGB彩色信息,而没有利用深度信息。由于深度数据具有光照和颜色不变性,并且能提供彩色数据不能提供的几何信息,对深度数据提取额外的特征将大幅提升视觉算法的性能。华盛顿大学Lai等[9]创建了一个RGB-D物体数据库用于验证物体识别算法。这个数据库既包含彩色图片又包含对应的深度信息,分别约为https://html.rhhz.net/jsjyy/2016-12-3333.htm
7.图像识别算法有哪些图像识别十大经典算法图像识别是计算机视觉领域中的一个重要分支,它旨在让计算机能够理解和识别图像。下面将介绍一些常见的图像识别算法。 1.图像分类 图像分类是指将一张图像分类到不同的类别中。常用的图像分类算法包括卷积神经网络(CNN)、支持向量机(SVM)等。 2.目标检测 https://www.eefocus.com/e/518039.html
8.三年磨一剑——微信OCR轻松提取图片文字ocr算法文本行图6 长按图片分类标签体系 3. 通用OCR识别 (1)文本检测 常用的基于深度学习的文本检测方法一般可以分为基于回归的、基于分割的两大类,当然还有一些将两者进行结合的方法。 图7 常用文本检测算法 基于回归的方法分为 box回归和 像素值回归。 采用box回归的方法主要有CTPN、Textbox系列和EAST,这类算法对规则形状文https://dy.163.com/article/G5NTLL1U0518R7MO.html
9.秒懂算法基于主成分分析法随机森林算法和SVM算法的人脸识别本文的任务与手写数字识别非常相似,都是基于图片的多分类任务,也都是有监督的。 01、数据集介绍与分析 ORL 人脸数据集共包含 40 个不同人的 400 张图像,是在 1992 年 4 月至 1994 年 4 月期间由英国剑桥的 Olivetti 研究实验室创建。 此数据集下包含 40 个目录,每个目录下有 10 张图像,每个目录表示一个https://xie.infoq.cn/article/ca9d988d0f70305993976225a
10.给照片穿上“隐身衣”,最强人脸识别算法也失灵!业界推出最新AIFawkes ,已经让旷视、微软、亚马逊等公司的面部识别算法失灵。 来自芝加哥的调查团队称。Fawkes的正是为照片添加防识别“隐身衣”的AI软件,经检测,它已经在最先进的面部识别技术中取得了百分百的胜利。 我们先来看一组图片。 相信你很难看出两组照片有任何差别。事实上,后者已经过了Fawkes处理,并能够屏蔽任何人脸识别https://www.leiphone.com/category/industrynews/AZf9RS8Y63Uvxi2j.html
11.有哪些免费图片转word软件APP推荐有哪些免费图片转word软件下载豌豆荚有哪些免费图片转word软件榜单为您提供最新有哪些免费图片转word软件大全,这里不仅有有哪些免费图片转word软件安卓版本APP、历史版本应用下载资源,还有类似有哪些免费图片转word软件的应用推荐,欢迎大家前来豌豆荚下载。https://www.wandoujia.com/bangdan/395418/
12.基于改进残差网络的扬尘图像识别方法由于扬尘图像识别目前没有公开的数据集. 因此,通过在互联网上收集各类有关扬尘场景的图片, 整理形成训练集和测试集, 然后使用数据增强在训练集和测试集中生成更多的数据, 解决了该研究中没有数据集以及数据量不足的问题. 为了增强模型的泛化能力, 采用数据增强的操作扩充所需的数据样本, 让网络模型更好的适应各种应https://c-s-a.org.cn/html/2021/5/7909.html
13.深入解析机器学习核心概念分类特征有时称为离散特征。 与数值数据相对。 形心(centroid) 聚类的中心,由k-means或k-median算法决定。例如,如果 k 为 3,则 k-means 或 k-median 算法会找出 3 个形心。 检查点 (checkpoint) 一种数据,用于捕获模型变量在特定时间的状态。借助检查点,可以导出模型权重,跨多个会话执行训练,以及使训练在发生https://www.360doc.cn/article/7673502_976517820.html