AI做“军师”?先赢过Reddit用户再说吧

作者: 佚名 2020-04-16 14:52:50

 

本文转自雷锋网,如需转载请至雷锋网官网申请授权。

日前,西雅图的研究人员推出了一项被他们称为“TuringAdvice”的新人工智能大挑战,挑战的核心是创建语言模型,为使用真实世界语言的人类提供有用的建议。

TuringAdvice挑战赛是基于动态的RedditAdvice数据集而发起的。Reddit advice是为迎接挑战而创建的,它是一个众包的数据集,在过去两周里共享的建议在Reddit小组中获得了最多的支持票。为了通过挑战,机器提供的建议必须要与那些受欢迎的人类建议一样有用,甚至更好。

作为TuringAdvice的一部分,研究人员还发布了一个静态RedditAdvice 2019数据集,用于训练提供建议的人工智能模型,其中包括Reddit子社区用户分享的18.8万个情景下的61.6万条建议。

初步分析表明,像谷歌T5(去年秋天推出的一个拥有110亿个参数的模型)这样的高级模型,只有在9%的情况下,写建议版主发现至少和人类建议一样有用。研究人员还评估了Grover变压器模型和TF-IDF的版本。这项研究没有评估像Google的BERT这样流行的双向NLP模型,因为它们通常被认为在生成文本方面不如从左到右的模型。关于人际关系、法律事务和日常生活方面的建议,可以在网上找到人机对比演示。

最近发布的一篇关于TuringAdvice的论文写道:“今天最大的模型在REDDITADVICE上苦苦挣扎,所以我们很高兴看到新模型得到发展。”

“我们认为,如今存在一个深层次的问题:人类在现实世界中如何使用语言,与我们的评估方法能够衡量的,这二者之间存在差距。当今的主流范式是研究静态数据集,并根据输出结果与预先定义正确答案的相似性对机器进行评级。”

“然而,当我们在现实世界中使用语言进行交流时——比如提供建议,或向某人传授一个概念——很少有一个通用的正确答案可以与之相比,这只是我们想要实现的一个松散的目标。我们引入了一个框架来缩小基准测试和实际语言使用之间的差距。”

作者们表示,TuringAdvice挑战赛中的AI进展,可能会使人工智能更好地为人类提供建议或充当虚拟治疗师。

为了确保结果与真实世界的语言使用保持一致,研究小组选择了一种动态评估方法,他们在最近两周内从Reddit的各个子社区收集了200个情况。他们选择把建议作为一个测试场景,因为它是所有人都非常熟悉的东西,并且与阅读理解等核心NLP任务重叠。

TuringAdvice挑战是华盛顿大学和艾伦人工智能研究所(Allen Institute of AI)的工作,上周在arXiv上发表的一篇研究论文对此进行了详细阐述。该论文题为根据机器的实际语言使用情况来评估机器》(evaluation Machines by their Real-World Language Use)。华盛顿大学副教授Ali Farhadi是艾伦研究所先前团队的负责人,也是本文的合著者之一,他的人工智能初创企业Xnor最近被苹果收购。

所有的模型性能评估都来自于通过亚马逊的Mechanical Turk雇佣的人员。这篇论文曾对获取人工智能模型培训数据的方式表示不满,但它认为,比起发布自动化机器建议来回应需要帮助的人类,雇佣Mechanical Turk员工的做法更有道德;它也承认,获得报酬来完成这项任务会引入外部动机。倾向于选择机器建议而非人类建议的工人被解雇了。

首席研究员Rowan Zellers在采访中透露,研究人员将有机会创建并调整他们的模型;第二轮排行榜结果预计将在未来几个月内公布。

研究人员表示,他们选择了Reddit各子社区分享的流行建议,试图创造一种内在的动力,就像人们在Reddit上响应求助时所体验的那样。

TuringAdvice挑战赛的一个关注点是价格。评估200条关于Mechanical Turk的建议大概需要370美元。未来挑战赛的参与者将被要求支付Mechanical Turk的费用,以便他们的模型被评估或出现在TuringAdvice排行榜上。

TuringAdvice是过去一年中为建立更健壮的自然语言模型而创造的最新挑战。去年秋天,华盛顿大学的NLP实验室曾与纽约大学、Facebook的AI研究院和三星研究院一道,推出了SuperGLUE挑战赛和“排行榜”(leaderboard)这一个更复杂的评估性能的任务系列。

AI Reddit 人工智能
上一篇:熊猫可人脸识别?大熊猫迎来熊生高光时刻,以后终于可以认清我了 下一篇:简析1.3亿元无人驾驶公交系统集采:车联网商用已具备条件
评论
取消
暂无评论,快去成为第一个评论的人吧

更多资讯推荐

科技史上超炸组合「元宇宙+脑机接口」,离我们还有多远?

技术推进门槛很硬,资本市场敬而远之,伦理问题纠缠不清。脑机接口距离元宇宙还差了几个"VR元年"?

董子博 ·  1天前
芯片短缺对人工智能有多大伤害?

全球芯片短缺的影响随处可见:从家用电器价格上涨到消费电子设备产能受限。急需处理器的人工智能应用也正面临压力,不过SambaNova CEO表示,硬件本身并不是人工智能成功的决定性因素。

AI时代前沿 ·  2天前
2021年人工智能与自动化的发展趋势

自动化正在成为许多市场的首要任务,特别是随着远程工作的增长和劳动力短缺改变了传统的工作模式,很多企业转而采用更可持续的自动化解决方案。

Shelby Hiter ·  2天前
人工智能能否帮助金融行业有效应对勒索软件?

现在是金融机构安全意识进一步发展的时候了——这意味着要超越试图阻止勒索软件突破防火墙的预防性方法,专注于用能够检测和阻止攻击的工具武装自己。

Garry Veale ·  2天前
AI视频分析技术是如何工作的?原理是什么?

实时 AI 视频分析是一种基于人工智能的技术,可分析视频流以检测特定行为和事件的展开。这种类型的系统通过人工智能机器学习引擎检查来自监控摄像头的视频流来进行相关工作。该引擎使用一系列算法和程序来理解数据,并将数据转换为可理解的、有意义的信息。

EasyNVR ·  2天前
AI能成科学家的工具人?Nature采访五位顶尖学者:学会写代码,降低期望

AI 对于其他领域的科研来说是一个极其好用的工具,DNA测序、天文地理甚至艺术领域都必须要用到AI 模型来提供灵感。最近Nature 采访了五位跨领域的专家,听听他们对于AI 工具人有什么想法?

佚名 ·  2天前
人工智能与云计算正加速形成应用生态

人工智能在赋能生产力升级,推动各行业完成智能化转型和新旧动能转换的进程中发挥着重要作用。同时,人工智能技术也已经广泛应用在金融、教育、医疗、能源、消费、工业等各行业多场景之中。

佚名 ·  2天前
Facebook在ICCV 2021 发布两个3D模型,自监督才是终极答案?

在 ICCV 2021 上,Facebook AI提出了两个新模型3DETR和DepthContrast,这两个互补的新模型可促进3D理解并更容易上手。

佚名 ·  2天前
Copyright©2005-2021 51CTO.COM 版权所有 未经许可 请勿转载