95后达摩院实习生击败微软,打破NLP最难任务世界纪录

作者: 金磊,元子 2019-07-17 16:48:00

阿里AI在常识QA领域的权威数据集CommonsenseQA上刷新世界纪录,超过微软取得***名,显著提升AI的常识推理能力。而这项技术,是一名叫做叶志秀的95后“实习生”,在达摩院科学家指导下完成的实习成果!

正所谓长江后浪推前浪,又一个“别人家的孩子多优秀”系列。

最近,一个年轻人火了:95后的实习生在常识QA领域的权威数据CommonsenseQA上刷新了世界纪录!

这位年轻人名叫叶志秀,他的这项工作是在达摩院科学家指导下完成的,并超越了微软,取得了***名的好成绩。

什么是CommonsenseQA?

CommonsenseQA是为了研究基于常识知识的问答而提出的数据集,比此前的SWAG、SQuAD数据集难度更高。目前***的语言模型BERT在SWAG、SQuAD上的性能已经接近或超过人类,但在CommonsenseQA上的准确率还远低于人类。

阿里巴巴达摩院语音实验室提出了AMS方法,显著提升BERT模型的常识推理能力。AMS方法使用与BERT相同的模型,仅预训练BERT,在不提升模型计算量的情况下,将CommonsenseQA数据集上的准确率提升了5.5%,达到62.2%。

95后达摩院实习生击败微软,打破NLP最难任务世界纪录

CommonsenseQA相关论文已在arXiv上发表,并获得NAACL 2019***资源论文

链接:

https://arxiv.org/pdf/1811.00937.pdf

95后达摩院实习生击败微软,打破NLP最难任务世界纪录

作者

Alon Talmor, Jonathan Herzig, Nicholas Lourie, and Jonathan Berant(以色列特拉维夫大学、艾伦人工智能研究所)

摘要

人们通常利用丰富的世界知识和特定语境来回答问题。近期研究主要聚焦于基于关联文档或语境来回答问题,对基础知识几乎没有要求。为了研究使用先验知识的问答,我们提出了一个关于常识问答的新型数据集 CommonsenseQA。为了捕捉关联之外的常识,我们从 ConceptNet (Speer et al., 2017) 中抽取了多个目标概念,它们与某个源概念具备同样的语义关系。

我们让众包工人编写提及源概念的选择题,并区分每个目标概念之间的差别。这鼓励众包工人编写具备复杂语义的问题,而问答这类问题通常需要先验知识。我们通过该步骤创建了 12247 个问题,并用大量强基线模型做实验,证明该新型数据集是有难度的。我们的***基线基于BERT-large (Devlin et al., 2018),获得了 56% 的准确率,低于人类准确率(89%)。

下图是构建 CommonsenseQA 数据集的过程示例:

95后达摩院实习生击败微软,打破NLP最难任务世界纪录

最聪明的AI的常识也不如一只猫

自然语言理解(NLP,Natural Language Processing)被誉为人工智能皇冠上的明珠,而常识推理是其中难度***的任务之一。

我们所谓的常识,指的是与生俱来、毋须特别学习便已经拥有的判断能力,或是众人皆知、无须解释或加以论证的知识。例如:打雷要下雨(磊欧);下雨要打伞(嘞奥)。

虽然在机器翻译、阅读理解等常用NLP任务上,AI的表现已接近人类水平,甚至在某些场景下已经超过人类水平,然而一旦涉及到常识推理方面就成了白痴。比如我们看到行人打着伞就能自然的想到外面可能在下雨;而AI可能会分辨出所有伞的种类,却无法做出“外面在下雨”的推断。

在包含1.2万多个常识问题的CommonsenseQA数据集上,现在已经能够达到56.7%的准确率,依然远低于人类的89%准确率。借用图灵奖获得者Yann LeCun的话,就是“最聪明的AI在常识方面都不如一只猫。”

但好在,如今这位阿里达摩院95后实习生的研究,将AI在常识推理方面的能力,向猫的水平推进了一步!

或许不久的将来,将会出现可以听懂人话的“猫”。就像,加菲一样?👇

95后达摩院实习生击败微软,打破NLP最难任务世界纪录

AI 数据 人工智能
上一篇:Uber 开源研究对话系统 Plato,用于开发和训练会话 AI 下一篇:历时两年,马斯克终发布「脑后插管」黑科技,革新脑机接口
评论
取消
暂无评论,快去成为第一个评论的人吧

更多资讯推荐

人工智能如何帮助痴呆症患者更独立地生活

在越来越多的人患有老年痴呆症,以技术为支撑人类照顾者和改善患者生活质量是当今的一种方式。特别是,我们希望使用技术来帮助痴呆症患者尽可能独立地生活。

美刻吃瓜 ·  14h前
人工智能、5G应用不再停留在“纸上蓝图” 数字经济发展提速

10月20-22日,《财经》新媒体记者在第六届世界互联网大会上了解到,与往年不同的是,经过几年的沉淀,互联网企业不再停留于“纸上蓝图”阶段,人工智能、5G、物联网等新业态的多场景应用正在加速落地。

军事哥谈 ·  14h前
【大咖来了 第4期】数据驱动的产品决策和智能化

前stitch fix/snap数据科学主管王建强分享《数据驱动的产品决策和智能化》,回放链接:http://aix.51cto.com/activity/10012.html?dk=wz

summer ·  18h前
【大咖来了 第2期】快狗打车智能化演进之路

快狗打车高级经理胡显波分享的《快狗打车智能化演进之路》,回放链接:http://aix.51cto.com/activity/10010.html?dk=wz

summer ·  19h前
AI破译千年文物铭文能力超人类 正确率比人类高30%

随着科技不断进步,人工智能AI似乎也在各方面不断超越人类。近日,AI又在考古再一次胜过了人类。

佚名 ·  19h前
AI破译千年文物铭文能力超人类 正确率比人类高30%

随着科技不断进步,人工智能AI似乎也在各方面不断超越人类。近日,AI又在考古再一次胜过了人类。

佚名 ·  19h前
手把手教你解决90%的NLP问题

利用机器学习方法来理解和利用文本,从最简单的到state-of-the-art,由浅入深,循序渐进。

Emmanuel Ameisen ·  20h前
【大咖·来了 第3期】海量日志分析与智能运维

日志易 CEO 陈军分享的《海量日志分析与智能运维》,回放链接:http://aix.51cto.com/activity/10011.html?dk=wz

summer ·  20h前
Copyright©2005-2019 51CTO.COM 版权所有 未经许可 请勿转载