华人小哥的“黑话”数据集,AI:你连dbq都不懂

作者: 子豪 2021-05-10 16:42:52

 本文经AI新媒体量子位(公众号ID:QbitAI)授权转载,转载请联系出处。

提到“007”,你一定会想到詹姆斯·邦德。

华人小哥的“黑话”数据集,AI:你连dbq都不懂,xswl |NAACL 2021

这样具有隐藏含义的词,可以统称为Cant,包括暗语、隐语、行话等。

常见的,比如“666”,还有zqsg、xswl等网络“暗语”……

对这些词的理解,在日常生活、广告和喜剧中都十分重要。

那么,怎么能让AI理解它们?

最近,来自USCD和北航的研究者,就一边“玩游戏”,一边为Cant开发了一个数据集——DogWhistle,并且已经开源。

华人小哥的“黑话”数据集,AI:你连dbq都不懂,xswl |NAACL 2021

用游戏收集数据

研究团队根据经典桌游「Decrypto(截码战)」进行改编,设计了「Decrypto Online」,利用其中的记录收集数据。

华人小哥的“黑话”数据集,AI:你连dbq都不懂,xswl |NAACL 2021

△Decrypto Online玩家界面

概括而言,Decrypto游戏就是将4个玩家分为2队,队长提供线索词B,以便让队友把它和初始词A关联起来,同时要避免对手推断出A词。

具体来说,每个队伍有序号1-4的四个初始词,只有本队成员可以知道这些词。

华人小哥的“黑话”数据集,AI:你连dbq都不懂,xswl |NAACL 2021

每一回合由队长抽取密码卡,根据卡上的3个数字,给出对应序号词的线索(Cant)。比如:初始词1是“黑色”,那么1对应的线索词可以用“夜晚”。

华人小哥的“黑话”数据集,AI:你连dbq都不懂,xswl |NAACL 2021

第一回合中,队友根据线索词,推断卡上的数字,并由队长公开是否正确。与此同时,对方将会记录这些信息。

华人小哥的“黑话”数据集,AI:你连dbq都不懂,xswl |NAACL 2021

而在第二回合,队长再次抽数字卡,并给出线索词,两队都要据此推断数字,答案正确则记一分。

也就是说,队长给出的线索词,既要让队友对应到初始词上,同时还要避免对手摸清其中的关联。

任务设置

研究人员给模型设置了两个子任务,初始词分别为可见和不可见。

内部人员子任务模拟内部人员之间的通信,第一行的4个初始词作为输入内容。由于emoji表情符号在交流中起着重要的作用,因此也被允许作为有效输入。

模型通过初始词和线索词进行推断,预测并输出初始词对应的序号(灰色背景)。

华人小哥的“黑话”数据集,AI:你连dbq都不懂,xswl |NAACL 2021

外部人员子任务中,初始词是不可见的。

模型通过猜词记录、线索词等进行推断,预测并输出记录对应的序号(灰色背景)。

华人小哥的“黑话”数据集,AI:你连dbq都不懂,xswl |NAACL 2021

定量分析

为了解不同模型对Cant的理解能力,研究人员通过两个子任务进行了定量分析。

华人小哥的“黑话”数据集,AI:你连dbq都不懂,xswl |NAACL 2021

△两个子任务的准确度得分对比

在词嵌入相似度的测试中,用多样化的大型数据集训练的DSG,性能显著优于其他模型。

而具有更强计算能力的大尺寸模型,在内部任务中的表现显著优于基础尺寸模型。例如,RoBERTa-base和ERNIE-base,都优于BERT-base。

此外,采用参数共享的ALBERT-base,在两个任务上都略微低于BERT。

值得注意的是,在两个任务中表现最好的模型,分别以12.8和8.5的较大差距,落后于人类的表现

这表明DogWhistle是一个非常具有挑战性的数据集,为下一代预训练语言模型提供了新的竞技场。

定性分析

研究人员还给出了在内部任务中,BERT未能预测,但人类可以正确预测的代表性样本。

华人小哥的“黑话”数据集,AI:你连dbq都不懂,xswl |NAACL 2021

“Dancing Pallbearers(黑人抬棺舞)” 在模型发布后才出现,以至于模型可能对该话题的认识不多。

华人小哥的“黑话”数据集,AI:你连dbq都不懂,xswl |NAACL 2021

“007”(指詹姆斯·邦德电影)的推理,需要模式对各种知识有高度理解,而不是过度拟合浅层的词汇特征,这也被认为是自然语言推理的主要缺陷。

还有“孩子都可以打酱油了”,也要求模型具有广泛的语言知识才能理解。

研究人员将DogWhistle数据集作为中间任务,通过中间任务迁移学习来提高模型的性能。

首先,在内部子任务上对模型进行微调,然后在蚂蚁金融问题匹配语料库(AFQMC)和大型中文问题匹配语料库(LCQMC)上,再次微调模型。

华人小哥的“黑话”数据集,AI:你连dbq都不懂,xswl |NAACL 2021

△原始任务和中间任务中准确度得分

结果显示,在两个数据集上,DogWhistle都帮助模型获得了更好的性能。

作者简介

华人小哥的“黑话”数据集,AI:你连dbq都不懂,xswl |NAACL 2021

论文一作许灿文,曾在武汉大学就读,目前是加州大学圣地亚哥分校(UCSD)的博士研究生。

他曾在微软亚洲研究院实习,现在Hugging Face工作。主要研究方向包括:NLP中的深度学习、自然语言生成和社交媒体分析。

华人小哥的“黑话”数据集,AI:你连dbq都不懂,xswl |NAACL 2021

论文二作周王春澍,是北京航空航天大学计算机科学硕士,在微软亚洲研究院实习,致力于NLP研究。

据作者介绍,这篇论文已经被NAACL 2021接收,数据集在GitHub上开源。

数据 AI 计算机
上一篇:机器学习项目中特征工程的5个优秀实践 下一篇:AI识图驴唇不对马嘴?Google AI:用交错训练集提升图像描述准确性
评论
取消
暂无评论,快去成为第一个评论的人吧

更多资讯推荐

MIT团队最新研究,仅靠LiDAR和2D地图实现端到端自动驾驶

最近, MIT 计算机科学与人工智能实验室(CSAIL)团队成功展示了一种基于机器学习的自动驾驶系统,该端到端框架仅使用 LiDAR获取的原始 3D 点云数据和类似于手机上的低分辨率 GPS 地图就能进行自主导航,并且大大提升了鲁棒性。

文龙 ·  2021-06-01 12:47:51
人工智能能否使机器具有流体智力?

麻省理工学院和奥地利研究人员为灵活的人工智能创造了“液体”机器学习。

千家网 ·  2021-06-01 10:38:55
高真实感、全局一致、外观精细,面向模糊目标的NeRF方案出炉

自 NeRF 被提出后,有多项研究对其加以改进。在本篇论文中,上海科技大学的研究者提出了首个将显式不透明监督和卷积机制结合到神经辐射场框架中以实现高质量外观的方案。

Haimin Luo等 ·  2021-06-01 09:57:39
美城市Baltimore可能颁布最严格的面部识别禁令

据介绍,拟议的法令将禁止私人或商业组织,甚至执法机构在城市使用面部识别技术。

千家网 ·  2021-06-01 09:34:07
当“追风筝的人”遇上了无人机……

随着我国用电需求的不断增长,电网建设的持续扩大,“追风筝的人”愈发力不从心。在逐渐增大的电力运维压力面前,电力工人由于作业效率、范围、成本、安全性和作业环境等方面的限制,愈发难以满足行业发展需求。在此背景下,无人机带来了福音。

智能制造网 ·  2021-05-31 20:48:45
大流行是否改变了人工智能的地位,从“想要”到“必须”?

在一个受新冠肺炎及其后果影响的世界里,采用人工智能正在成为一种主流现实。越来越多的行业正在以前所未有的速度试验和适应人工智能,无论是健康、教育、零售还是制造业。

Cassie ·  2021-05-31 18:17:50
日本将向月球发送变形机器人球:整颗球重250g

5月31日消息,据外媒报道称,日本将发送一颗长相特别的球型机器人到月球去。据悉,这个球型机器人由日本宇宙航空研究开发机构 (JAXA) 与索尼、同志社大学和玩具制造商 Tomy 合作开发,未来,其在抵达月球表面后,会“展开”成药丸型完整装置,捕捉月球表面的图像并且以研究月球土壤为主要目标。

环球网 ·  2021-05-31 15:15:09
值得关注 人工智能这5大趋势将给世界带来影响

人工智能不再是未来的技术。将我们日常工作自动化的机器变得越来越聪明,人工智能对我们生活的影响超出了我们的想象。在过去的十年中,我们见证了对人工智能相关技术的需求显著增长。

Yu ·  2021-05-31 15:14:35
Copyright©2005-2021 51CTO.COM 版权所有 未经许可 请勿转载