谷歌开源 GPipe,训练更大模型、不调整超参扩展性能

作者: h4cd 2019-03-06 09:34:19

 谷歌开源了一个分布式机器学习库 GPipe,这是一个用于高效训练大规模神经网络模型的库。

GPipe 使用同步随机梯度下降和管道并行进行训练,适用于由多个连续层组成的任何 DNN。重要的是,GPipe 允许研究人员轻松部署更多加速器来训练更大的模型,并在不调整超参数的情况下扩展性能。

开发团队在 Google Cloud TPUv2s 上训练了 AmoebaNet-B,其具有 5.57 亿个模型参数和 480 x 480 的输入图像尺寸。该模型在多个流行数据集上表现良好,包括将 single-crop ImageNet 精度推至 84.3%,将 CIFAR-10 精度推至 99%,将 CIFAR-100 精度推至 91.3%。

GPipe 可以***化模型参数的内存分配。团队在 Google Cloud TPUv2上进行了实验,每个 TPUv2 都有 8 个加速器核心和 64 GB 内存(每个加速器 8 GB)。如果没有 GPipe,由于内存限制,单个加速器可以训练 8200 万个模型参数。由于在反向传播和批量分割中重新计算,GPipe 将中间激活内存从 6.26 GB 减少到 3.46GB,在单个加速器上实现了 3.18 亿个参数。此外,通过管道并行,***模型大小与预期分区数成正比。通过 GPipe,AmoebaNet 能够在 TPUv2 的 8 个加速器上加入 18 亿个参数,比没有 GPipe 的情况下多 25 倍。

核心 GPipe 库目前开源在 Lingvo 框架下

具体原理可以查看谷歌的发布公告

谷歌 开源 机器学习
上一篇:畅谈机器学习和人工智能的未来 下一篇:深度解析Python深度学习框架的对比
评论
取消
暂无评论,快去成为第一个评论的人吧

更多资讯推荐

需要关注的2020年8个人工智能趋势

O'Reilly公司副总裁Roger Magoulas介绍了自动化、硬件、工具、模型开发等方面的新发展,这些趋势将在2020年塑造(或加速)人工智能的发展。

Harris ·  4天前
阿里开源MNNKit:基于MNN的移动端深度学习SDK,支持安卓和iOS

近日,阿里开源了基于 MNN 引擎的项目 MNNKit,面向安卓和 iOS,以 SDK 的方式提供 AI 端侧推理能力。开发者不需要了解算法细节就可以直接使用。

一鸣、Jamin ·  4天前
为什么你觉得Matplotlib用起来困难?因为你还没看过这个思维导图

Matplotlib是一个流行的Python库,可以很容易地用于创建数据可视化。

机器学习与数据分析 ·  2020-01-22 16:29:52
性能提升25倍:Rust有望取代C和C++,成为机器学习首选的Python后端

在机器学习开发领域,如果我们纵观全局,撇除所有微小的细节,那么就可以提炼出机器学习开发中的两大不变步骤。

lpalmieri ·  2020-01-21 22:25:00
为什么我用Go写机器学习部署平台,而偏偏不用Python?

虽然在机器学习中,Python已经无孔不入。但Python并不是全能之神手中的魔杖可以为所欲为。

佚名 ·  2020-01-21 21:38:03
掌握这六步,搭建机器学习项目

机器学习覆盖的范围十分广泛。这篇文章将整体描述机器学习适用的典型问题,提供实现机器学习项目雏形的框架。

读芯术 ·  2020-01-19 11:10:44
Google 开源最新 NLP 模型,能处理整本《罪与罚》

Transformer 可谓是近年 NLP 领域关注度颇高的模型之一。近日,Google 又推出了 Transformer 的“升级版”——Reformer。

Rachel ·  2020-01-18 14:50:13
赢在起跑线,数据科学必备5大技能

数据科学领域竞争激烈,人们正在迅速发展越来越多的技能和经验。“R、Python、SQL和机器学习”一直是数据科学家的标配。但随着这个领域的发展,这些技能已经渐渐不足以在就业市场上保持竞争力了。

读芯术 ·  2020-01-16 19:03:04
Copyright©2005-2020 51CTO.COM 版权所有 未经许可 请勿转载