谷歌发布大规模对话语料库,涉及17个领域含1.8万个注释

作者: 图灵联邦 2019-10-30 08:55:33

 在不需要额外数据和再训练的情况下,谷歌Assistant等人工智能助手如何更好地支持新服务?

这是谷歌的研究人员在最近的一项研究中试图回答的问题,该研究引入了一种方法,在没有领域特定参数的情况下跨服务使用模型。

作为它的一部分,该团队发布了一个语料库——模式指导的对话(SGD)语料库——他们声称这是最大的面向任务的对话语料的公开汇编。

软件工程师Abhinav Rastogi 和谷歌研究工程负责人Pranav Khaitan在博客中写道:“如今的虚拟助手帮助用户完成各种各样的任务,包括查找航班、搜索附近的活动和电影、预订、从网上获取信息等等。”

“尽管取得了巨大的进步……适应性挑战在最先进的模型中常常被忽视。这部分是由于缺乏合适的数据集来匹配虚拟助理所面临的规模和复杂性。”

为此,SGD包含18000多个人与虚拟助理之间的带注释的对话,涉及与17个领域服务的交互:从银行、大事件到媒体、日历、旅行和天气等。

对于大多数领域,数据集包含几个不同的api,其中许多api具有重叠的功能,但是不同的接口反映了典型的真实场景。评估集包含了训练集中没有的服务,主要用于量化模型对api变化或新api添加的鲁棒性。

至于前面提到的模式指导方法,它利用每个服务或API及其相关属性的自然语言描述来学习分布式语义表示,该语义表示作为对话系统的额外输入,随后作为单个模型实现。

该团队表示,统一模型是谷歌开源对话状态跟踪模型的核心,它促进了不同服务中相似概念之间的公共知识表示,使得对训练数据中没有的新服务进行操作成为可能。

“我们相信,这个数据集将成为建立大规模对话模型的良好基准,”Rastogi和Khaitan写道。“我们很兴奋,并期待着研究界将以各种创新的方式利用它来推进对话技术。”

新数据集和模型的发布是在谷歌Coached Conversational Preference Elicitation (CCPE)和Taskmaster-1(两个人之间的一对对话数据集)的开源之后进行的。(前者包括与人们就他们的电影喜好进行的500次对话,总计1万次,总计1.2万次对话。)

谷歌将其描述为:向能够实现人类级别的性能的自然语言系统建模迈出了一步。

谷歌 人工智能 技术
上一篇:AI软件如何帮助教育领域发展? 下一篇:刷脸支付入场:能否成为下一个“支付大战”的酣战点?
评论
取消
暂无评论,快去成为第一个评论的人吧

更多资讯推荐

MIT提出Liquid机器学习系统,可像液体一样适应动态变化

麻省理工学院(MIT)的研究者开发出了一种新型的神经网络,其不仅能在训练阶段学习,而且还能持续不断地适应。

机器之心 ·  2021-02-21 15:47:47
AutoML大提速,谷歌开源自动化寻找最优ML模型新平台

为了帮助研究者自动、高效地开发最佳机器学习模型,谷歌开源了一个不针对特定领域的 AutoML 平台。

机器之心 ·  2021-02-21 14:08:15
规划智慧城市时,别忘了无障碍通行

要想成为一个智慧城市甚至一个智慧世界,虽然可能需要时间和有针对性的规划,但我们必须以人为本。

蒙光伟 ·  2021-02-21 10:26:41
2021关于人工智能的五大趋势

数字化变革,比过去10年更多,这主要是由于远程工作的规模,以及企业迅速部署了必要的技术,尤其是与网络安全相关的技术。那,2021关于人工智能的五大趋势会是如何的呢?

Lichu ·  2021-02-21 10:21:01
使数据中心更智能:人工智能如何发挥作用?

随着数据成为维持几乎所有业务运营以获取洞察力和业务成果的先决条件,数据中心正处于这种数字化转型的关键。

Cassie ·  2021-02-21 10:14:59
IBM拟出售Watson Health后,AI医疗还能不能碰

医疗服务仍然是一块商业上尚未被完全发掘的市场,看病难/看病贵、医疗资源紧缺、医疗资源不平均等痛点问题长期存在,对应的市场空间理应是巨大的。而Watson Health作为IBM曾寄予厚望的业务方向,为何要在此时萌生退意?它的故事给业界带来哪些启发?眼下的AI医疗市场,究竟是一副什么样的局面呢?

物联传媒 ·  2021-02-21 08:41:16
抛弃归一化,深度学习模型准确率却达到了前所未有的水平

我们知道,在传递给机器学习模型的数据中,我们需要对数据进行归一化(normalization)处理。

机器之心 ·  2021-02-20 21:09:12
华人博士生首次尝试用两个Transformer构建一个GAN

最近,CV 研究者对 transformer 产生了极大的兴趣并取得了不少突破。这表明,transformer 有可能成为计算机视觉任务(如分类、检测和分割)的强大通用模型。

Yifan Jiang ·  2021-02-20 21:04:53
Copyright©2005-2021 51CTO.COM 版权所有 未经许可 请勿转载