阿里打破自然语言理解世界纪录,AI常识推理水平正在逼近人类

作者: 佚名 2019-07-16 11:13:06

近日,阿里AI在常识QA领域的权威数据集CommonsenseQA上刷新世界纪录,显著提升AI的常识推理能力。这一技术是“95后”实习生叶志秀在达摩院科学家指导下完成的实习成果。

CommonsenseQA是为了研究基于常识知识的问答而提出的数据集,比此前的SWAG、SQuAD数据集难度更高。目前流行的语言模型BERT在SWAG、SQuAD上的性能已经接近或超过人类,但在CommonsenseQA上的准确率还远低于人类。

阿里


上图为CommonsenseQA数据集上的常识问题,大拇指朝上的选项为正确答案

自然语言理解(NLP,Natural Language Processing)是人工智能皇冠上的明珠,常识推理则是难度非常高的NLP任务之一。在机器翻译、阅读理解等NLP任务上,AI的表现已经接近或超过人类水平,阿里AI就先后在国际先进的机器翻译赛事WMT、机器阅读理解赛事SQuAD、文本阅读理解挑战赛MS MARCO等赛事夺冠甚至赶超人类纪录。

相比之下,AI的常识推理能力比人类差得多。常识是指绝大部分人都了解并接受的客观事实,比如盐是咸的、下雨了要打伞、村庄位于陆地上而非湖泊内等等。人在回答问题时,常会结合这些不言而喻的背景知识。但机器没有常识,无法将“马路上,人们撑着伞”的原始陈述与“外面正在下雨”的逻辑假设自动关联。

深度学习先锋人物之一、图灵奖获得者Yann LeCun 曾有断言:即使是非常聪明的AI在常识方面也不如猫。在包含1.2万多个常识问题的CommonsenseQA数据集上,时下流行的AI模型BERT的答题准确率为56.7%,远低于人类的89%。

阿里巴巴达摩院语音实验室提出了AMS方法,显著提升BERT模型的常识推理能力。AMS方法使用与BERT相同的模型,仅预训练BERT,在不提升模型计算量的情况下,将 CommonsenseQA数据集上的准确率提升了5.5%,达到62.2%。

阿里


上图为CommonsenseQA数据集的得分榜单,阿里AI刷新了世界纪录

阿里的技术突破将大幅提升下一代人机交互产品的常识理解能力,可应用于语音导航、智能电视、语音售票机等产品。

设想这样的场景:你开车寻找一个地处偏僻的村庄,村子不久前已经搬迁,但导航还没更新位置信息。村子所在地块被开挖成了人工湖,由于AI没有常识,导航直接就把你往湖心方向带。AI如果拥有常识,就不会犯这类“蠢萌”的错误。

达摩院表示今后将开源该模型和论文,与业界共享新的研究成果。

阿里 自然语言理解 AI
上一篇:边缘计算时代的到来会给AI带来哪些影响? 下一篇:Gartner调查显示:企业机构预计在明年增加一倍的人工智能项目
评论
取消
暂无评论,快去成为第一个评论的人吧

更多资讯推荐

AI如何改善采矿行业现状? 精选

人工智能的引入,有望将采矿业转化成一个更安全、利润空间更大且更为环保的行业。

佚名 ·  3天前
大小仅1MB!超轻量级的人脸识别模型火爆Github

近日,用户Linzaer在Github上开源了一款适用于边缘计算设备、移动端设备以及 PC 的超轻量级通用人脸检测模型,该模型文件大小仅1MB,一经开源就霸榜Github Trending榜单。

佚名 ·  3天前
AI艺术日渐繁荣,未来何去何从? 精选

利用人工智能创作而成的画作近年来越来越受瞩目,有的作品甚至能在知名拍卖行拍得高价。但这类作品仍有不少问题需要解答,比如它的作者是开发出算法的程序员还是计算机呢?AI艺术的市场未来将走向何方呢?

网易智能 ·  2019-10-17 08:50:25
人工智能进入大学校园带来了哪些变化

在一个人的教育生涯中,大学如何成为最好的学习体验?高等教育的目的就是发展技能,探索新理论,并将其应用于现实生活中。在整个学习期间,鼓励学生完成学习任务,熟练掌握技能,同时培养一个健康的、积极的、和谐的生活态度。

风车云马 ·  2019-10-16 09:00:00
图灵奖得主Yoshua Bengio:深度学习当务之急,是理解因果关系

深度学习擅长在大量数据中发现模式,但无法解释它们之间的联系,而图灵奖获得者Yoshua Bengio想要改变这一点。

佚名 ·  2019-10-15 05:15:00
人工智能遇冷,自动驾驶受阻?

2016到2019,人工智能经历了梦幻般的三年,但人工智能的历史规律告诉我们:高潮过后可能会引来新的一波沉寂,人工智能助推下的自动驾驶也会受到波及。

佚名 ·  2019-10-14 11:00:27
AI核心难点之一:情感分析的常见类型与挑战

情感分析或情感人工智能,在商业应用中通常被称为意见挖掘,是自然语言处理(NLP)的一个非常流行的应用。文本处理是该技术最大的分支,但并不是唯一的分支。情绪AI有三种类型及其组合。

Veronika Vartanova ·  2019-10-12 10:14:41
机器学习帮你预测电池寿命:精确了解电池还能充几次 精选

电池寿命的确定,是移动硬件发展的重要一环,但是由于电池电化学反应的不确定性以及不同的使用环境和习惯,电池寿命变成了一门玄学。不过柏林的三位小伙伴,利用Tensorflow,在原有的预测体系基础上。更近一步,完成了电池的全寿命预测。

靓科技解读 ·  2019-10-11 13:00:40
Copyright©2005-2019 51CTO.COM 版权所有 未经许可 请勿转载