在预训练NLP模型上测量性别相关性

作者: 雷锋字幕组 2020-10-26 15:48:32

在过去的几年中,自然语言处理(NLP)取得了长足的进步,诸如BERT,ALBERT,ELECTRA和XLNet等预训练语言模型在各种任务中均取得较高的准确性。预训练语言模型以Wikipedia这样的大型文本语料库为训练集,通过遮掩一些单词并对它们进行预测来学习嵌入表示,即遮掩语言建模。实验结果表明,通过这样的方式,可以对不同概念(如外科医生和手术刀)间的丰富语义信息进行编码。训练完成后,经过微调就可使模型适用特定任务的训练数据,通过预训练嵌入实现分类等特定任务。鉴于这样的预训练表示在不同NLP任务中得到广泛采用,作为从业者,我们需要了解预训练模型如何对信息编码以及学习到怎样的相关性,这些又会怎样影响下游应用性能,这样才不至于偏离我们的AI原则。

在“Measuring and Reducing Gendered Correlations in Pre-trained Models”,我们对BERT及精简版的ALBERT进行实例研究,讨论了性别相关性,并为预训练语言模型的实践应用提供参考。我们在学术任务数据集进行实验,并将结果与一些常用模型做了对比,以验证模型实用性,并为进一步的研究提供参考。我们后续会发布一系列checkpoints,从而可以在保持NLP任务准确性的情况下减少性别相关性。

相关性衡量

为了解预训练表征中的相关性如何影响下游任务,可以使用多种评估指标来研究性别表征。在这里,我们采用共指消解讨论测试结果,该方法旨在使模型能够理解句子中给定代词的正确先行词, 例图示句子中,模型要识别出他指护士而不是患者。

OntoNotes(Hovy等,2006)是最常用得标准验证数据集,同时F1分数用来衡量模型在共指消解中的准确性(Tenney等。2019)。由于OntoNotes仅表示一种数据分布,因此我们还使用WinoGender基准测试,该基准提供了一些其他数据,通过该基准可以判别性别和职业何时会产生错误的共指消解。WinoGender的得分较高(接近1),表明模型基于性别与职业间的关联(如将护士与女性而不是男性关联)进行决策;当性别和职业之间没有一致的关联时(得分为零),此时模型决策基于句子结构或语义等其他信息。

BERT和ALBERT在OntoNotes(准确性)和WinoGender(性别关联)上的表现。WinoGender的值越低,表示模型在推理中较少关注性别信息。

研究发现,BERT或ALBERT在WinoGender上都没有零得分,而在OntoNotes上获得了极高的准确性(接近100%)。实验表明,在一些情况下,模型在推理决策中会考虑性别相关性。这符合我们的预期,模型可以使用多种线索来理解文本,可以只采用其中的一种或是选择全部线索。当然,在实际应用中我们还是要谨慎,不能寄希望于模型根据先验的性别相关性进行预测,其他可用信息对于预测也非常重要。

实践指南

鉴于预训练模型嵌入中的隐式关联有可能影响下游任务,因此在开发新的NLP模型时,我们要考虑可以采取哪些措施来减轻这种风险?

  • 隐式相关性的衡量非常重要:虽然可以使用准确性度量来评估模型质量,但是这样度量方式仅从单一角度评估模型,在测试数据与训练数据分布相同时其不足尤为显著。例如,BERT和ALBERT检查点的准确度相差1%以内,但使用性别相关性进行共指解析的相对偏差为26%。这意味着,对于某些任务,这样的差异尤为重要。在处理一些反固定思维的文本时(如男护士),选择WinoGender分数较低的模型更加合理。
  • 更改任何模型配置时都要谨慎,哪怕看似影响不大:神经网络模型训练由许多超参数控制,一般通过选择合理的超参数以最大化训练目标。尽管某些参数选择看似不会对模型产生什么影响,但我们却发现,它们可能会导致性别相关性发生重大变化。例如,Dropout正则化用于避免模型的过度拟合,当我们在BERT和ALBERT训练过程中增大Dropout参数,即使进行微调,性别相关性还是会显着降低。这意味着微小的配置更改就可以影响训练模型,从而降低相关性风险,但同时也表明,在对模型配置进行任何更改时,我们应该谨慎行事、仔细评估。

在BERT和ALBERT训练过程中增大Dropout参数的影响

相关性的缓解:前文以介绍了Dropout对性别相关性的影响,据此,我们进一步推论得到通过这样的方式可能减少额外的相关性:通过增加dropout参数,我们可以改进模型对WinoGender的推理方式,而无需手动指定任何内容,甚至不需要更改微调阶段。然而,随着dropout的增加,OneNotes的准确性也会开始下降(见BERT的结果),但我们认为可以在预训练阶段避免这种情况,通过更改dropout改进模型,而无需针对特定任务进行更新。在论文中,我们基于反事实数据增强,提出了另一种具有差异化权重的缓解策略。

展望

我们认为,以上这些实践指南为开发强大的NLP系统提供了参考,从而使其适用于更广泛的语言和应用范围。当然,由于技术本身的不足,难以捕获和消除所有潜在的问题。因此,在现实环境中部署的任何模型都应经过严格测试,即尝试不同方法,并通过一些保护措施以确保符合道德规范,如Google的AI原则。我们期待评估框架与数据取得更进一步的发展,使语言模型适用于各种任务,为更多人提供优质服务。

致谢

本文的合作者包括Xuezhi Wang,Ian Tenney,Ellie Pavlick,Alex Beutel,Jilin Chen,Emily Pitler和Slav Petrov。同时感谢Fernando Pereira,Ed Chi,Dipanjan Das,Vera Axelrod,Jacob Eisenstein,Tulsee Doshi和James Wexler等人。

NLP 自然语言处理 数据
上一篇:人脸识别门禁系统启用后,轻松过闸之时也要留意潜在风险 下一篇:AI作曲的诺亚方舟将去往何处
评论
取消
暂无评论,快去成为第一个评论的人吧

更多资讯推荐

中国 AI 专利申请已超美国!我国 5G 最新成绩:技术世界领先

此前,世界互联网大会已经举办了六届,今年的形式有所改变——取消举办第七届世界互联网大会,改为以世界互联网大会组委会的名义举办上述论坛,虽然规模比往年有所缩小,但也强调小而精。

李帅飞 ·  1天前
人工智能改变商业房地产领域的5种方式

人工智能是一种功能强大的工具,具有通过智能自动化改变房地产的潜力,包括经纪人如何管理清单,跟踪数据以及与买家互动。

vondser ·  2天前
TensorFlow为新旧Mac特供新版本,速度最高提升7倍

对于开发者、工程师、科研工作者来说,Mac 一直是非常受欢迎的平台,也有人用 Mac 训练神经网络,但训练速度一直是一个令人头疼的问题。

佚名 ·  2020-11-19 15:02:56
10个丰富自我的机器学习项目

机器学习项目有很大的发展潜力,最近大火的韩剧也出现了这个词语并且用很浪漫的说法解释了它。你不仅能通过它来学习数据科学,还能为简历加分!毕竟招聘者一般通过你拥有的技能来判断你的潜力。

快快网络 ·  2020-11-13 15:29:21
谷歌AI最新3D数据集,1.5万张动图,让AR主宰你的生活

这是谷歌的开源3D物体数据集Objectron,包含15000份短视频样本,以及从五个大洲、十个国家里收集来的400多万张带注释的图像。

萧箫 ·  2020-11-13 14:56:24
爱分析·中国数据智能应用趋势报告

随着企业业务发展与技术成熟,企业面临海量增长的数据,结合大数据、人工智能物联网等技术,企业对数据的应用从监测、洞察逐步向决策迈进,进入了数据智能应用的时代。

佚名 ·  2020-11-10 09:58:53
人工智能如何帮助城市改善交通管理

人工智能(AI)在交通领域的应用正在刺激创新,以更好地,更有针对性地使用车辆和基础设施。这可以优化网络性能,支持流量的监视和管理,并为解决方案奠定基础,为将来的移动性铺平道路,尤其是在城市中。

互联网潜伏者 ·  2020-11-05 15:55:06
为什么企业应该了解聊天机器人中的自然语言处理?

自然语言处理(NLP)使聊天机器人能够理解我们的会话信息并相应地作出响应。

iothome ·  2020-11-05 05:31:09
Copyright©2005-2020 51CTO.COM 版权所有 未经许可 请勿转载