六项任务、多种数据类型,谷歌、DeepMind提出高效Transformer评估基准

作者: 机器之心 2020-11-29 20:24:13

  • 基准项目地址:https://github.com/google-research/long-range-arena

  • 论文地址:https://arxiv.org/pdf/2011.04006.pdf

Transformer 在多个模态(语言、图像、蛋白质序列)中获得了 SOTA 结果,但它存在一个缺点:自注意力机制的平方级复杂度限制了其在长序列领域中的应用。目前,研究人员提出大量高效 Transformer 模型(「xformer」),试图解决该问题。其中很多展示出了媲美原版 Transformer 的性能,同时还能有效降低自注意力机制的内存复杂度。

谷歌和DeepMind的研究人员对比了这些论文的评估和实验设置,得到了以下几点发现:

  • 首先,高效 Transformer 缺少统一的基准测试,使用的任务类型也多种多样:每个模型在不同的任务和数据集上进行评估。

  • 其次,评估所用基准通常是随意选择的,未充分考虑该任务是否适用于长程建模评估。

  • 第三,很多论文将归纳偏置的效果和预训练的优点混为一谈,这会模糊模型的真正价值:预训练本身是计算密集型的,将归纳偏置和预训练分离开来可降低 xformer 研究的门槛。

于是,谷歌和DeepMind的研究人员提出了一个新基准Long-Range Arena (LRA),用来对长语境场景下的序列模型进行基准测试。该基准包括合成任务和现实任务,研究人员在此基准上对比了十个近期提出的高效 Transformer 模型,包括 Sparse Transformers、 Reformer 、Linformer、Longformer、Sinkhorn Transformer、 Performer 、Synthesizer、Linear Transformer 和 BigBird 模型。

该基准主要关注模型在长语境场景下的能力,不过研究人员对 xformer 架构在不同数据类型和条件下的能力也很感兴趣。因此,该基准选择了具备特定先验结构的数据集和任务。例如,这些架构可以建模层级结构长序列或包含某种空间结构形式的长序列吗?这些任务的序列长度从 1K 到 16K token 不等,还包括大量数据类型和模态,如文本、自然图像、合成图像,以及需要类似度、结构和视觉 - 空间推理的数学表达式。该基准主要面向高效 Transformer,但也可作为长程序列建模的基准。

除了对比模型质量以外,该研究还进行了大量效率和内存使用分析。研究者认为,并行性能基准测试对于社区是有益且珍贵的,能够帮助大家深入了解这些方法的实际效率。总之,该研究提出了一个统一框架,既能对高效 Transformer 模型进行简单的并行对比分析,还能对长程序列模型进行基准测试。该框架使用 JAX/FLAX1 编写。

高效 Transformer 评估新基准:Long-Range Arena (LRA)

基准需求

在创建 LRA基准之前,研究者先列举了一些需求:

  • 1. 通用性:适用于所有高效 Transformer 模型。例如,并非所有 xformer 模型都能执行自回归解码,因此该基准中的任务仅需要编码。

  • 2. 简洁性:任务设置应简单,移除所有令模型对比复杂化的因素,这可以鼓励简单模型而不是笨重的 pipeline 方法。

  • 3. 挑战性:任务应该对目前模型有一定难度,以确保未来该方向的研究有足够的进步空间。

  • 4. 长输入:输入序列长度应该足够长,因为评估不同模型如何捕获长程依赖是 LRA基准的核心关注点。

  • 5. 探索不同方面的能力:任务集合应当评估模型的不同能力,如建模关系和层级 / 空间结构、泛化能力等。

  • 6. 非资源密集、方便使用:基准应该是轻量级的,方便不具备工业级计算资源的研究者使用。

任务

LRA基准包含多项任务,旨在评估高效 Transformer 模型的不同能力。具体而言,这些任务包括:Long ListOps、比特级文本分类、比特级文档检索、基于像素序列的图像分类、Pathfinder(长程空间依赖性)、Pathfinder-X(极端长度下的长程空间依赖性)。

LRA 任务所需的注意力 范围

LRA基准的主要目标之一是评估高效 Transformer 模型捕获长程依赖的能力。为了对注意力机制在编码输入时需要考虑的空间范围进行量化估计,该研究提出了「所需注意力范围」(required attention span)。给出一个注意力模型和输入 token 序列,注意力模块的所需注意力范围是 query token 和 attended token 间的平均距离。

图 2 总结了 LRA基准中每项任务的所需注意力范围,从图中可以看出每项任务的所需注意力范围都很高。这表明,Transformer 模型不仅仅涉及局部信息,在很多任务和数据集中,注意力机制通常需要结合邻近位置的信息。

实验

量化结果

实验结果表明,LRA 中的所有任务都具备一定的挑战性,不同 xformer 模型的性能存在一定程度的差异。具体结果参见下表 1:

效率基准

表 2 展示了 xformer 模型的效率基准测试结果:

从中可以看出,低秩模型和基于核的模型通常速度最快。整体最快的模型是 Performer,在 4k 序列长度上的速度是 Transformer 的 5.7 倍,Linformer 和 Linear Transformer 紧随其后。最慢的模型是 Reformer,在 4k 序列长度上的速度是 Transformer 的 80%,在 1k 序列长度上的速度是 Transformer 的一半。

此外,研究者还评估了这些模型的内存消耗情况。结果显示,内存占用最少的模型是 Linformer,在 4k 序列长度上只使用了 0.99GB per TPU,而原版 Transformer 使用了 9.48GB per TPU,内存占用减少了约 90%。

整体结果:不存在万能模型

根据研究人员的分析,在 LRA 所有任务中整体性能最好(LRA 分数最高)的模型是 BigBird。但是,BigBird 在每项任务中的性能均不是最好,它只是在所有任务上都能取得不错的性能。Performer 和 Linear Transformer 在一些任务中表现抢眼,但其平均分被 ListOps 任务拖累。

下图 3 展示了模型性能、速度和内存占用之间的权衡情况。BigBird 性能最好,但速度几乎与原版 Transformer 相同。而 Local Attention 模型速度很快,但性能较低。在这些模型中,基于核的模型(如 Performer、Linformer 和 Linear Transformer)能够在速度和性能之间获得更好的折中效果,同时内存占用也较为合理。

数据 谷歌 DeepMind
上一篇:第四范式NeurIPS 2020:知识图谱嵌入的自动化 下一篇:什么是边缘人工智能和边缘计算?
评论
取消
暂无评论,快去成为第一个评论的人吧

更多资讯推荐

美国医生如何使用人工智能对抗新冠?

去年Covid-19开始大流行时,克利夫兰诊所医师、首席研究信息官拉若·杰依和她的同事们都有些茫然: “谁有危险? 谁可能生病? 他们需要什么样的护理?”拉若·杰依说:“问题无穷无尽。我们没有足够的时间等待,看看随着时间的推移会发生什么变化。”

沧海已云晏 ·  13h前
快20倍!谷歌AI推TensorFlow 3D,智能汽车好用

Google AI发布了TensorFlow 3D,将3D深度学习能力引入TensorFlow,加入3D稀疏卷积网络,在Waymo Open数据集上的实验表明,这种实现比预先设计好的TensorFlow操作提速「20倍」。

佚名 ·  2天前
AI脑回路竟和人类如此相似,OpenAI最新研究引热议

两个月前轰动网络的AI设计大师CLIP,刚刚被OpenAI“扒开”了脑子。没想到,这个性能强大的AI竟和人类思维方式如此相像。

浩楠 晓查 ·  2天前
斯坦福连续发了四年的AI报告,今年讲了什么?

2021 年度的斯坦福 AI Index 报告正式发布,从七大版块出发,探讨了过去一年中的 AI 总体发展情况。

机器之心 ·  3天前
两会互联网大佬提案汇总:数字经济、智能汽车成高频词

今年的互联网大佬提案中数字经济仍然是重点,智能汽车、数据安全等成为高频词汇。

佚名 ·  4天前
无人驾驶公交你愿意坐吗?科技能否改变未来

无人驾驶的概念已经出来很长一段时间了,相关的无人驾驶汽车更是时不时出现在新闻头条上,但是,关于无人驾驶究竟能不能上路的问题,却始终存在争议。而在这个背景下,如果出现了无人驾驶的公交车,你愿意坐吗?

佚名 ·  4天前
AutoML大提速,谷歌开源自动化寻找最优ML模型新平台

为了帮助研究者自动、高效地开发最佳机器学习模型,谷歌开源了一个不针对特定领域的 AutoML 平台。

机器之心 ·  2021-02-21 14:08:15
我用90年代的古董电脑训练CNN

最近,一位日本小哥武田广正(音译)就在1990年的电脑PC-9801上实现了CNN来识别手写字符。

杨净 ·  2021-02-20 12:21:16
Copyright©2005-2021 51CTO.COM 版权所有 未经许可 请勿转载