500亿参数,支持103种语言:谷歌推出「全球文字翻译」模型

作者: 机器之心 2019-10-12 13:36:43

由于缺乏平行数据,小语种的翻译一直是一大难题。来自谷歌的研究者提出了一种能够翻译 103 种语言的大规模多语言神经机器翻译模型,在数据丰富和匮乏的语种翻译中都实现了显著的性能提升。他们在 250 亿个的句子对上进行训练,参数量超过 500 亿。

500亿参数,支持103种语言:谷歌推出「全球文字翻译」模型

在过去的几年里,由于神经机器翻译(NMT)的发展,机器翻译(MT)系统的质量得到了显著提升,打破了世界各地的语言障碍。但 NMT 的成功很大程度上要归功于有监督的训练数据。那么,数据较少甚至没有数据的语言该怎么办呢?多语言 NMT 是一种有效的解决方法,它有一种归纳偏见,即「来自一种语言的学习信号应该有助于提高其他语言的翻译质量」。

多语言机器翻译使用一种语言模型处理多种语言。数据匮乏语种多语言训练的成功已经应用于自动语言识别、文本转语音等系统。谷歌的研究者之前探索过扩展单个神经网络可以学习的语言数量,同时控制每种语言的训练数据量。但如果将所有限制因素都移除会发生什么?我们能否使用所有可用数据训练单个模型——即使这些数据的大小、脚本、复杂度和领域都各不相同。

在一篇名为「Massively Multilingual Neural Machine Translation in the Wild: Findings and Challenges」的论文和后续几篇论文中,谷歌的研究者们在超过 250 亿的句子对上训练了一个 NMT 模型,这些句子是 100 多种语言与英语的互译,参数量超过 500 亿。他们得到了一种大规模多语言、大规模神经机器翻译方法 M4,在数据丰富和匮乏的语言中都实现了显著的性能提升,可以轻松适应单个领域/语言,同时能够有效应用于跨语言下游迁移任务。

大规模多语言机器翻译

尽管跨语言对数据倾斜是 NMT 任务中的一大挑战,但这种倾斜也为研究迁移创造了一种理想情景,在一种语言上训练得到的信息可以应用到其他语言的翻译中。法语、德语、西班牙语等数据丰富的语言占据分布的一端,提供了数十亿的平行语料;约鲁巴语、信德语、夏威夷语等数据匮乏的语言占据分布的另一端,只有几万的语料。

所有语言对的数据分布(取对数)和在每个特定语言对上训练得到的双语基线的相对翻译质量(BLEU 分数)。

使用所有可用数据(来自 103 种语言的 250 亿个样本)训练之后,研究者观察到,数据匮乏语言有着强烈的正向迁移倾向,30 多种语言的翻译质量得到了显著提高,数据分布尾部的 BLEU 分数平均提高了 5 分。效果是已知的,但却非常鼓舞人心,因为比较是在双语基线(即只在特定语言对上训练得到的模型)和单个多语言模型之间进行的,后者拥有类似于单个双语模型的表征能力。这一发现表明,大规模多语言模型可以有效泛化,而且能够捕捉大量语言之间的表征相似性。

单个大规模多语言模型与双语基线模型之间的翻译质量对比。

在一篇名为「Investigating Multilingual NMT Representations at Scale」的 EMNLP 2019 论文中,谷歌的研究者比较了多语言模型在多种语言中的表征能力。他们发现,多语言模型无需外部限制就能学习在语言学上相似的语言的共享表征,验证了长期以来利用这些相似性的直觉和实验结果。

在「Evaluating the Cross-Lingual Effectiveness of Massively Multilingual Neural Machine Translation」一文中,研究者进一步证明了这些学习到的表征在下游任务中跨语言迁移的有效性。

500亿参数,支持103种语言:谷歌推出「全球文字翻译」模型

所有 103 种语言编码表征聚类的可视化,基于表征相似性。不同的颜色代表不同的语系。

构建大规模神经网络

在增加数据匮乏的语种数量之后,数据丰富的语种翻译质量开始下降。这种下降在多任务设置中可以被观察到,由任务间的竞争和迁移的单向性引起(即从数据丰富的语言到数据匮乏的语言)。研究人员探索了能够更好地学习和实现能力控制的算法,以此来解决这种负迁移问题。在此过程中,他们还通过增加神经网络模型的参数量来提高其表征能力,以此来提高数据丰富语言的翻译质量。

提高神经网络的能力还有其他几种方法,包括添加层数、增加隐藏表征的宽度等。为了训练更深的翻译模型,研究者利用 GPipe 来训练 128 层、参数超过 60 亿的 Transformer。模型能力的提高使得所有语言的翻译质量都得到了显著提升,BLEU 分数平均提高了 5 分。他们还研究了深度网络的其他性质,包括深度-宽度权衡、可训练性难题以及将 transformer 扩展到 1500 多层、840 亿参数的设计选择等。

尽管扩展深度是提高模型能力的一种方法,探索能够利用问题多任务特性的架构也是一种非常可行的补充方法。研究者通过用稀疏门控专家混合层(sparsely-gated mixture of experts)替代原始的前馈层修改 transformer 的架构,显著提高了模型能力,使得我们可以成功地训练和传递 500 亿参数,从而进一步提高了翻译质量。

与 103 个双语翻译基准相比,谷歌的新方法在单个多语言模型上提高了容量(参数量),进而提高了翻译质量。

让 M4 模型实用化

对于每个语言的领域或迁移任务来说,训练大型模型,花费大量算力非常不经济。谷歌提出的方法通过使用容量可调层使新模型适应特定的语言或领域,无需更改原始模型,使得这些模型变得更加实用。

展望

有研究显示,到 21 世纪末,全球至少有 7000 种目前正在使用的语言将会不复存在。多语言机器翻译系统可以拯救这些语言吗?谷歌认为,M4 是通向另外 1000 种语言翻译的基石。从这类多语言模型开始,即使没有平行语料,我们也可以轻松地将机器翻译扩展到新的语言、领域和下游任务中去。在通用机器翻译的方向上,很多有希望的解决方案似乎是跨领域的,多语言 NMT 正在成为多任务学习、元学习、深层网络训练等机器学习技术的理想测试平台。

机器学习 人工智能 计算机
上一篇:用AI实现动画角色的姿势迁移,Adobe等提出新型「木偶动画」 下一篇:机器学习转化为生产力,警惕这4个常见陷阱!
评论
取消
暂无评论,快去成为第一个评论的人吧

更多资讯推荐

未来已来,如何减少人工智能带来的风险?

为了在新时代蓬勃发展,企业安全需要减少人工智能带来的风险,并充分利用它提供的机会。

高博 ·  11h前
选择正确的人工智能用例的5个技巧

很多企业可能对采用人工智能还没有做好准备,因此从单个项目开始可能是一个很好的开始。首席信息官在早期人工智能项目中应该有什么收获?

David Petersson ·  11h前
一份不可多得的数据科学与机器学习Python库

本文全面地介绍了当前市场上适合于数据科学和机器学习的优秀 Python 库。

陈峻 ·  18h前
长相不讨AI喜欢面试就会挂?全球百万求职者经历AI“看脸”面试

AI不仅会筛选你的简历,还会通过看脸决定你能否通过面试。这不是将来时。全球已有超过一百万求职者,经历过AI面试官的冷酷“凝视”。

鱼羊 ·  19h前
2020年趋势风向标,工业互联网人工智能应用将成为基本底座

一直以来,我们都把物联网平台视为基座,各种IoT应用搭载于平台之上。但是如果我们反过来看这个问题,其实是各种各样的物联网应用为平台带来了生态活力和客户价值。具有锚定效应的是物联网应用,他们才是事实上的基座。

彭昭 ·  19h前
人工智能给敏捷项目管理带来的九大好处

在当今时代,企业正在使用AI来使日常工作自动化,这使我们过去认为不可能的事情成为可能。下面我们详细介绍人工智能给敏捷项目管理的带来各种好处。

敏捷之美 ·  22h前
普元推进业务流程智能化:“BPM+RPA”进行时,赋能企业数字化转型

在传统企业面临数字化转型的当下,RPA(Robotic Process Automation)正迅速进入大众视野并受到不少转型企业的青睐。因为流程自动化是数字化转型的重要环节,而RPA擅长的正是将大量重复有规律的工作流程自动化。RPA在中国具有丰富的应用领域和广阔的市场前景,普元正是在这一时机中参与到新一代RPA平台的建设,以期为企业实施RPA提供更为完善的选择。

张洁 ·  3天前
美国卫生与人类服务部如何利用AI与区块链改善服务?

美国卫生与人类服务部(HHS)是个规模庞大的机构,对美国GDP的影响超过1.1万亿美元。目前,HHS正在借助AI与区块链技术寻求能够降低成本的洞察和见解,并借此更加高效地保护人类健康乃至挽救生命。

佚名 ·  3天前
Copyright©2005-2019 51CTO.COM 版权所有 未经许可 请勿转载