谷歌130亿参数多语言模型mT5重磅来袭,101种语言轻松迁移

作者: 佚名 2020-10-28 10:38:08

Facebook刚刚开源多语种机器翻译模型「M2M-100」,这边谷歌也来了。谷歌宣布,基于T5的mT5多语言模型正式开源,最大模型130亿参数,与Facebook的M2M相比,参数少了,而且支持更多语种。

前几天,Facebook发了一个百种语言互译的模型M2M-100,这边谷歌着急了,翻译可是我的老本行啊。

刚刚,谷歌也放出了一个名为 mT5的模型,在一系列英语自然处理任务上制服了各种SOTA。

你发,我也发,你支持100种,我支持101种!(虽然多这一种没有多大意义,但气势上不能输)

mT5是谷歌 T5模型的多语种变体,训练的数据集涵盖了101种语言,包含3亿至130亿个参数,从参数量来看,的确是一个超大模型。

多语言模型是AI的桥梁,但难以避免「有毒」输出

世界上成体系的语言现在大概有7000种,纵然人工智能在计算机视觉、语音识别等领域已经超越了人类,但只局限在少数几种语言。

想把通用的AI能力,迁移到一个小语种上,几乎相当于从头再来,有点得不偿失。

所以跨语种成为了AI能力迁移的重要桥梁。

多语言人工智能模型设计的目标就是建立一个能够理解世界上大部分语言的模型。

多语言人工智能模型可以在相似的语言之间共享信息,降低对数据和资源的依赖,并且允许少样本或零样本学习。随着模型规模的扩大,往往需要更大的数据集。

C4是从公共网站获得的大约750gb 的英文文本的集合,mC4是 C4的一个变体,C4数据集主要为英语任务设计,mC4搜集了过去71个月的网页数据,涵盖了107种语言,这比 C4使用的源数据要多得多。

mC4中各种语言的网页数量

有证据表明,语言模型会放大数据集中存在的偏差。

虽然一些研究人员声称,目前的机器学习技术难以避免「有毒」的输出,但是谷歌的研究人员一直在试图减轻 mT5的偏见,比如过滤数据中含有偏激语言的页面,使用 cld3检测页面的语言,将置信度低于70% 的页面直接删除。

mT5:使用250000词汇,多语言数据采样策略是关键

mT5的模型架构和训练过程与T5十分相似,mT5基于T5中的一些技巧,比如使用GeGLU的非线性(Shazeer,2020年),在较大模型中缩放dmodel而不是dff来对T5进行改进,并且仅对未标记的数据进行预训练而不会出现信息丢失。

训练多语言模型的最重要的一点是如何从每种语言中采样数据。

但是,这种选择是零和博弈:如果对低资源语言的采样过于频繁,则该模型可能会过拟合;如果对高资源语言的训练不够充分,则模型的通用性会受限。

因此,研究团队采用Devlin和Arivazhagan等人使用的方法,并根据概率p(L)∝ | L |^α,对资源较少的语言进行采样。其中p(L)是在预训练期间从给定语言中采样的概率,| L |是该语言中样本的数量,α是个超参数,谷歌经过实验发现α取0.3的效果最好。

为了适应更多的语言,mT5将词汇量增加到250,000个单词。与T5一样,使用SentencePiece和wordPiece来训练模型。

Sentencepiece示意

那采样之后有的字符没覆盖到怎么办?

研究团队为了适应具有大字符集的语言(比如中文),使用了0.99999的字符覆盖率,但还启用了SentencePiece的「字节后退」功能,以确保可以唯一编码任何字符串。

为了让结果更直观,研究人员与现有的大规模多语言预训练语言模型进行了简要比较,主要是支持数十种语言的模型。

mT5专治各种SOTA,但基准测试未必能代表实力

截至2020年10月,实验中最大 mT5模型拥有130亿个参数,超过了所有测试基准,包括来自 XTREME 多语言基准测试的5个任务,涵盖14种语言的 XNLI 衍生任务,分别有10种、7种和11种语言的 XQuAD、 MLQA 和 TyDi QA/阅读理解基准测试,以及有7种语言的 PAWS-X 释义识别。

实验结果可以看到,在阅读理解、机器问答等各项基准测试中mT5模型都优于之前的预训练语言模型。

至于基准测试能否充分反映模型在生产环境中的表现,就另当别论了。

对预训练语言模型最直白的测试方法就是开放域问答,看训练后的模型能否回答没见过的新问题,目前来看,即使强如GPT-3,也经常答非所问。

但是谷歌的研究人员断言,mT5是向功能强大的模型迈出的一步,而这些模型不需要复杂的建模技术。

总的来说,mT5展示出了跨语言表征学习中的重要性,并表明了通过过滤、并行数据或其他一些调优技巧,实现跨语言能力迁移是可行的。

这个源自T5的模型,完全适用于多语言环境。

谷歌 模型 机器翻译
上一篇:Hinton预言的「AI将拥有常识」如何实现?剑桥最新研究:从小狗学起 下一篇:出行的未来:智能、可持续和高效
评论
取消
暂无评论,快去成为第一个评论的人吧

更多资讯推荐

1.8M超轻量目标检测模型NanoDet,比YOLO跑得快

目标检测一直是计算机视觉领域的一大难题,其目标是找出图像中的所有感兴趣区域,并确定这些区域的位置和类别。目标检测中的深度学习方法已经发展了很多年,并出现了不同类型的检测方法。

佚名 ·  3天前
26亿参数,智源、清华开源中文大规模预训练模型

近日,北京智源人工智能研究院和清华大学研究团队联合发布了以中文为核心的大规模预训练语言模型 CPM-LM,参数规模达 26 亿,预训练中文数据规模 100 GB。

佚名 ·  2020-11-18 10:29:07
谷歌AI最新3D数据集,1.5万张动图,让AR主宰你的生活

这是谷歌的开源3D物体数据集Objectron,包含15000份短视频样本,以及从五个大洲、十个国家里收集来的400多万张带注释的图像。

萧箫 ·  2020-11-13 14:56:24
微软和谷歌分别开源分布式深度学习框架,各自厉害在哪?

原则上看,他们都遵循了类似的原则来训练深度学习模型。这两个项目已在各自的研究论文(PipeDream,GPipe)中进行了详细介绍,这篇文章将对此进行总结。

佚名 ·  2020-11-09 10:50:19
MIT 推出机器翻译新算法,破译已消失的古语言

麻省理工学院计算机科学与人工智能实验室(Computer Science and Artificial Intelligence Laboratory,CSAIL)的研究人员最近开发出了一种新的计算机算法,可以帮助语言学家自动破译历史上消失已久失的古语言。

白开水不加糖 ·  2020-10-27 14:34:42
速度超快!字节跳动开源序列推理引擎LightSeq

LightSeq 可以应用于机器翻译、自动问答、智能写作、对话回复生成等众多文本生成场景,大大提高线上模型推理速度,改善用户的使用体验,降低企业的运营服务成本。

佚名 ·  2020-10-24 07:30:05
金钱能让人更快乐吗?手把手教你用机器学习找到答案

本文通过“金钱能让人更快乐吗?”等实操案例带你了解基于实例的学习和基于模型的学习。

华章科技 ·  2020-10-23 17:23:50
Waymo与谷歌提出TNT模型,实现自动驾驶多轨迹行为预测

周围的车辆和行人在接下来数秒中会做什么?要实现安全的自动驾驶,这是一个必须回答的关键问题,这也就是自动驾驶领域中的行为预测问题。

DeepTech深科技 ·  2020-10-19 08:15:23
Copyright©2005-2020 51CTO.COM 版权所有 未经许可 请勿转载