学坏容易学好难!人工智能将继承人类的种族和性别偏见

作者: 佚名 2017-04-18 11:10:07

编者按:桑斯坦在《网络共和国》当中提出了算法影响我们的认知世界、并在《信息乌托邦》当中第一次明确提出了算法使人形成“信息茧房”的危害。这是算法对于人脑的影响,而算法应用于人工智能中,也让偏见在人工智能当中存在——由于语言本身具有偏见,人工智能通过算法习得了它们,甚至人工智能有可能加强这一偏见。但这是否是一个坏事情,还值得我们探讨。

学坏容易学好难!人工智能将继承人类的种族和性别偏见

在过去的数年中,诸如谷歌翻译这样的程序在语言翻译方面进步神速,这一进步多亏了新的机器学习技术和大量可获得的在线文本数据,它们使得算法可以被检验。

人工智能(AI)工具彻底变革了计算机翻译日常用语的能力,但也表现出了显著的性别和种族偏见。根据《科学》杂志中最新的研究表明,随着机器越容易习得类人的语言能力,它们同样就越容易习得语言应用范式中根深蒂固的偏见。

随着越来越多影响我们日常生活的问题让渡给机器人作出决定,现存的社会不平等和偏见以新的、不可预知的方式被强化,这一发现使这个噩梦萦绕人们心头。

学坏容易学好难!人工智能将继承人类的种族和性别偏见

随着机器越容易习得类人的语言能力,它们同样就越容易习得语言应用范式中根深蒂固的偏见。图片来自: KTS Design/Getty Images/Science Photo Library RF

巴斯大学的计算机科学家和论文的联合作者Joanna Bryson说:“许多人认为这表明了AI具有偏见。其实并不然,这表明了我们是有偏见的,而AI正在学习这种偏见。”

但Bryson同样警告说,AI有着加强现存偏见的可能,因为不同于人类,算法无法自觉抵抗习得的偏见。她说:“危险在于AI系统不为道德所驾驭,一旦你拥有了这样的一个系统,这就糟糕了。”

文字嵌入:获取单词背后的文化和社会背景含义

论文聚焦于机器学习工具,即“文字嵌入”,这种机器学习工具已经改变了计算机翻译演讲和文本的方式。有人声称下一步自然就是使机器发展出类人能力,比如具有常识判断和逻辑。

普林斯顿大学的计算机科学家和论文的资深作者Arvind Narayanan说:“我们选择研究文字嵌入的主要原因,是由于在最近几年里,帮助机器搞清语言方面的努力已经取得了令人惊叹的成功。”

这一已经应用于网页检索和机器翻译的方法通过建立起一种语言的数学化表述来发挥作用。在这种数学化的表述下,文字和基于其一同频繁出现的意义一道,被抽象为一系列数字(即矢量)。尽管这令人惊奇,但算法似乎正在以一种字典也不能定义的方式,获取一个单词背后丰富的文化和社会背景含义。

比如,在数学化的“语言空间”中,“花”的单词总是与具有褒义的词汇相联系,而“昆虫”的单词则相反,反映出人们对昆虫和花不同价值的共同观点。最新的论文展示出,一些在人类心理实验中更为棘手的隐性偏见同样可以被算法轻而易举地习得。“女性”和“女人”更易于同艺术人文类岗位和家庭联系起来,而“男性”和“男人”则是与数理和工程类岗位。同时,人工智能系统更有可能将欧裔美国人的名字与褒义词联系起来,比如“天赋”或“快乐”,而非裔美国人的名字一般则更易与贬义词相联系。

这一发现表明,人们(至少在英美)在隐性的关联测试中将褒义词与白面孔联系在一起,算法习得了这一偏见。

这些偏见会对人类行为产生深远影响。曾有研究表明,对于一份完全相同的简历,有着欧裔美国人名字的候选人会比有着非裔美国人名字的候选人更有可能获得面试邀请,这一可能性超过了50%。最新的结果显示,除非明确进行了程序化处理,算法将会充满同样的社会偏见。

“如果你不相信人名和种族主义之间存在着联系的话,这就是证据。”Bryson说。

该研究中,机器学习工具的检验基于一个名为“网络爬虫”的资料库——它包含了在线发表的资料,包括8400亿个单词。使用谷歌新闻的数据做检验,也得到了相似的结果。

算法为处理偏见提供机会

牛津大学的数据伦理和算法的研究者Sandra Wachter说:“世界是有偏见的,历史数据是有偏见的,因此我们得到了有偏见的结果也就不足为奇了。”她补充道,“与其说算法代表着一种威胁,它们更能为处理偏见提供机会,以及在合适的时机消除这些偏见。”

“至少我们可能在算法出现偏见的时候获悉这种偏见,”她说,“而人类呢,却可以在不雇佣某人的原因上撒谎。相比而言,我们不用指望算法欺骗我们。”

但是Wachter声称,未来的挑战在于,如何在消除算法中不合理的偏见之余,依旧保留它强有力的翻译能力,毕竟算法是设计来理解语言的。

“理论上我们可以建立系统检测有偏见的决策并对此采取行动,”Wachter说,她与其他人一道,呼吁建立起针对人工智能的监管,“这是一项复杂的任务,但却是我们社会不能回避的责任。”

人工智能 机器学习
上一篇:机器学习工程师必知的十大算法 下一篇:英国开发人工智能新算法 提高心脏病发作预测准确率
评论
取消
暂无评论,快去成为第一个评论的人吧

更多资讯推荐

AI行业寒潮下,智能物流机器人产业迎来“风口”

“人工智能,前景很好,但‘钱’景不好 ” 、“2018年,人工智能的进展就是没有进展”、“2019年的AI行业已如石墨烯一样,尽显疲态”……一篇《投资人逃离人工智能》文章又给人工智能行业泼了一身冷水。人工智能融资难、“寒冬论”再一次戳痛每个人工智能从业者的心,激起大众的焦虑情绪。

AI报道 ·  16h前
人工智能应用在智慧社区五大场景

物联网、云计算、大数据、人工智能正逐步从概念走向应用。越来越多的传统产业也开始探索和创新,积极拥抱互联网和新技术。未来,人工智能技术可能会颠覆社区管理。

有熊 ·  17h前
基于PyTorch的CV模型框架,北大学生出品TorchCV

在机器学习带来的所有颠覆性技术中,计算机视觉领域吸引了业内人士和学术界最大的关注。

张倩、泽南 ·  18h前
高位截瘫患者重新行走:靠意念指挥外骨骼,法国脑机接口新突破

依靠介入头部的 2 个传感器,法国里昂的一名瘫痪男子 Thibault 实现了操控外骨骼装备来助力行走。

孙滔 ·  22h前
2008 年预测 2020 年生活方式:基本都实现了

美国皮尤研究中心曾在 2008 年预测 2020 年的生活方式,目前来看,该研究的预测基本已经实现。而对于未来 10 年,也就是 2030 年左右人们的生活,在 2017 年底的世界经济论坛上,800 多名信息和通讯技术领域的技术高管和专家给出了如下预测。

佚名 ·  22h前
机器学习的正则化是什么意思?

正则化的好处是当特征很多时,每一个特征都会对预测y贡献一份合适的力量;所以说,使用正则化的目的就是为了防止过拟合。

佚名 ·  22h前
为什么我的CV模型不好用?没想到原因竟如此简单……

机器学习专家 Adam Geitgey 近日发布了一篇文章探讨了这一简单却又让很多人头痛的问题,并分享了他为解决这一问题编写的自动图像旋转程序。

机器之心 ·  22h前
中文自动转SQL,准确率高达92%,这位Kaggle大师刷新世界纪录

首届中文NL2SQL挑战赛上,又一项超越国外水平的NLP研究成果诞生了。在NL2SQL这项任务上,比赛中的最佳成绩达到了92.19%的准确率,超过英文NL2SQL数据集WikiSQL目前完全匹配精度86.0%,执行匹配精度91.8%的最高成绩。

郭一璞 ·  23h前
Copyright©2005-2019 51CTO.COM 版权所有 未经许可 请勿转载