容量是GPT-2的1.7倍!谷歌打造神经对话模型Meena

作者: AI前线小组 译 2020-01-30 14:50:16

容量是GPT-2的1.7倍!谷歌打造神经对话模型Meena

谷歌方面表示,这是“真正”对话式AI的一次尝试。

Chatbots(对话式机器人)往往具有高度专业性,只要回答与用户的期望相差不远,它们的性能就值得肯定。为了更好地处理不同的对话主题,开放域对话研究 探索了一种新的方法,研究人员试图开发一种非聊天专用机器人,虽然不以聊天为主要功能,但仍然可以满足用户的任何对话需求。

谷歌的研究人员认为:开放域对话研究除了是一个引人入胜的研究课题之外,这种对话机制还可以产生许多有趣的应用程序,例如进一步人性化的计算机交互、改进外语练习以及制作可关联的交互式电影和游戏角色。

但是,当前的开放域聊天机器人有一个严重的缺陷:它们通常没有实用意义,比如对同一个问题的回答前后不一致,或者回答总是缺乏基本常识。此外,聊天机器人通常会给出并非特定于当前上下文的响应,例如,“我不知道”可以是对任何问题的回答,当前的聊天机器人比人类更经常这样做,因为它涵盖了许多可能的用户输入。

近日,在一篇名为《Towards a Human-like Open-Domain Chatbot》的论文中,谷歌的研究人员介绍了一个名为“Meena”的模型,它是一个包含了 26 亿参数的端到端训练型神经对话模型。

在论文中,研究人员表示:他们已经证明,与现有的最新聊天机器人相比,Meena 可以进行更聪明、更具体的对话。他们针对开放域聊天机器人提出了一项新的人类评估指标,即 敏感度和特异性平均值(SSA),该指标捕获了人类对话的基本但重要的属性。值得注意的是,研究人员证明了“困惑度”是一种易用于任何神经对话模型的自动指标,与 SSA 高度相关。

什么是“Meena”

Meena 是一种端到端的神经对话模型,可以学会对给定的对话环境做出更加聪明的反应。据介绍,Meena 模型具有 26 亿个参数,并经过 341 GB 的文本训练,这些文本是从公共领域的社交媒体对话中过滤出来的,与现有的最新生成模型 OpenAI GPT-2 相比,Meena 具有 1.7 倍的模型容量,并且受过 8.5 倍的数据训练。

该模型训练的目标是最大程度地减少“困惑度”,即预测下一个标记(会话中的下一个单词)的不确定性。它的核心是 Evolved Transformer seq2seq 体系结构,这是一种通过进化神经体系结构搜索发现以改善困惑性的 Transformer 体系结构。

容量是GPT-2的1.7倍!谷歌打造神经对话模型Meena

具体而言,Meena 具有单个 Evolved Transformer 编码器块和 13 个 Evolved Transformer 解码器块,如下所示。编码器负责处理对话上下文,以帮助 Meena 理解对话中已经说过的内容,然后,解码器使用该信息来制定响应。通过调整超参数,研究人员发现:功能更强大的解码器是提高对话质量的关键。

容量是GPT-2的1.7倍!谷歌打造神经对话模型Meena

用于训练的对话被组织为树线程,其中线程中的每个答复都被视为一个会话回合。研究人员提取了每个会话训练示例(包含七次上下文转换)作为通过树线程的一条路径,研究人员表示,选择七次作为一个良好的平衡,是因为既要有足够长的上下文来训练会话模型,又要在内存约束内拟合模型(较长的上下文会占用更多的内存)。

敏感性和特异性平均值(SSA)

现有的关于聊天机器人质量的人工评估指标往往很复杂,并且未在审阅者之间达成一致。这促使谷歌的研发人员设计了一种新的人类评估指标,即敏感度和特异度平均值(SSA),它捕获了自然对话的基本但重要的属性。

为了计算 SSA,研究人员与参与测试的聊天机器人(Meena 和其他知名的开放域聊天机器人共同参与测试,包括 Mitsuku,Cleverbot,小冰和 DialoGPT)进行了自由形式的对话众包。

为了确保评估之间的一致性,每个对话都以相同的问候语“ 嗨!”开始,人类评估员会在对话过程中重点关注两个问题:“回答是否有意义”以及“回答是否具体”,每轮对话都要求评估者使用常识来判断机器人的响应是否完全合理。如果出现任何问题,比如混淆,不合逻辑,脱离上下文或有事实性错误的,则应将其评定为“没有意义”;如果响应是有意义的,则需要评估其回答以确定是否基于给定的上下文。

例如,如果 A 回答“ 我爱网球 ”,而 B 回答“ 很好 ”,那么这段对话应标记为“不具体”,因为这样的答复可以在许多不同的上下文中使用;但是如果 B 回应:“我也是,我太喜欢罗杰·费德勒了!”那么就可以将其标记为“特定”,因为它的回答与前文所讨论的内容密切相关。

对于每个聊天机器人,研究人员通过大约 100 个对话收集了 1600 至 2400 种个人对话,每个模型响应都由评估人员标记,以表明其回答是否合理和具体。聊天机器人的敏感度是标记为“敏感”的响应的一部分,而特异性是标记为“特定”的响应的一部分,这两个数值的平均值是 SSA 分数。

下面的结果表明,就 SSA 分数而言,Meena 的表现大大优于现有的最新聊天机器人,并且正在缩小与人类的差距。

容量是GPT-2的1.7倍!谷歌打造神经对话模型Meena

自动评估度量:困惑度

研究人员长期以来一直在寻求一种与更准确的人工评估相关的自动评估度量,这样做可以更快地开发对话模型,但是迄今为止,找到这样的自动度量标准一直是一个挑战。出乎意料的是,谷歌研究人员发现,在他们的工作中,“困惑度”似乎符合这一种自动度量标准,它可随时用于任何神经 seq2seq 模型,表现出与人工评估(如 SSA 值)的强烈相关性。

谷歌研究人员关于“困惑度”的解释是这样的:困惑度用于衡量语言模型的不确定性,困惑度越低,模型就越有信心生成下一个标记(如字符、子词或单词)。从概念上讲,困惑度表示模型在生成下一个回答时试图选择的选项数量。

在开发过程中,研发人员对具有不同超参数和体系结构的八个不同模型版本进行了基准测试,例如层数、关注头(attention heads)、总训练步骤、是否使用 Evolved Transformer 或常规 Transformer 以及是否使用硬标签或“蒸馏”进行训练。如下图所示,困惑度越低,模型的 SSA 评分越好,相关系数也很强(R 2 = 0.93)。

编者注:知识蒸馏(有时也称为师生学习)是一种压缩技术,要求对小型模型进行训练,以使其拥有类似于大型模型(或者模型集合)的行为特征。

容量是GPT-2的1.7倍!谷歌打造神经对话模型Meena

交互式 SSA 与困惑度。每个蓝点都是 Meena 模型的不同版本,通过绘制一条回归线,表明 SSA 和困惑之间存在很强的相关性。虚线分别对应人类、其他机器人、Meena(base)、端到端训练模型的 SSA 性能,以及最终的具有过滤机制和已调谐解码的完整 Meena。

谷歌表示,他们研发的最好的端到端 Meena 模型(称为 Meena(base))的困惑度为 10.2(越小越好),并且 SSA 分数转换为 72%,完整版的 Meena 具有过滤机制和经过解码的解码功能,可将 SSA 分数进一步提高到 79%。

未来的研究与挑战

对于未来的规划,谷歌的研发人员表示将继续通过改进算法,体系结构,数据和计算来降低神经对话模型的困惑度。虽然目前研发人员只专注于这项工作中的明智性和特殊性,但其他属性(例如事实性等)在后续工作中也值得考虑。此外,解决模型中的安全性和偏差是谷歌关注的重点领域。

谷歌 Android 技术
上一篇:别再认为人工智能是金融行业的旁观者 下一篇:机器学习是否可以准确预测股市?
评论
取消
暂无评论,快去成为第一个评论的人吧

更多资讯推荐

机器学习的中流砥柱:用于模型构建的基础架构工具有哪些?

人工智能(AI)和机器学习(ML)已然“渗透”到了各行各业,企业们期待通过机器学习基础架构平台,以推动人工智能在业务中的利用。

读芯术 ·  12h前
了解有关符号人工智能,象征性AI的好处和局限性

如今,人工智能主要是关于人工神经网络和深度学习。但这并非总是如此。实际上,在过去的十年中,该领域大部分都由象征性人工智能主导,也被称为“经典AI”,“基于规则的AI”和“老式的AI”。

AI国际站 ·  19h前
支持108种语言的谷歌翻译如何用AI让翻译质量越来越好?

谷歌表示,在提高语言翻译的质量方面,已经取得了进展。在即将发表的博客文章中,该公司详细介绍了新的创新技术。

包永刚 ·  20h前
IoT和AI如何让企业在疫情期间重启业务

疫情期间,我们该如何利用物联网和人工智能技术帮助企业重新开始营业,提供安全和相关的服务,同时也确保员工安全。

Dimitrios Spiliopoulos ·  1天前
复工复产“新基建”提速 人工智能能做什么

疫情中,智能产品在用户群体中赢得了更多信任,人工智能给各行业的“赋能”作用开始显现,人工智能应用在提升国家治理能力方面的作用也越来越明显。

邱晨辉 ·  1天前
2020年商业中十大AI趋势 人工智能技术正以惊人的速度增长

人工智能是2010年代的技术,随着时间的流逝,越来越多的AI技术正在出现。人工智能是所有技术人员的新魅力-但即使在第二个十年,它也没有结束。毫无疑问,2019年是人工智能之年;然而,2020年已许诺了更多的AI奇迹。以下是2020年人工智能业务十大趋势。

AI国际站 ·  1天前
机器学习:有监督和无监督之间有什么区别

机器学习是人工智能的一个子集,它通过示例和经验教会计算机执行任务,是研究和开发的热门领域。我们每天使用的许多应用程序都使用机器学习算法,包括AI助手,Web搜索和机器翻译。

AI国际站 ·  2天前
机器学习的七原罪

机器学习是一种伟大的工具,正在改变着我们的世界。 在许多伟大的应用中,机器(尤其是深度学习)已被证明优于传统方法。 从用于图像分类的Alex-Net到用于图像分割的U-Net,我们看到了计算机视觉和医学图像处理领域的巨大成功。 不过,我看到机器学习方法每天都在失败。 在许多这样的情况下,人们迷上了机器学习的七大罪过之一。

闻数起舞 ·  2天前
Copyright©2005-2020 51CTO.COM 版权所有 未经许可 请勿转载