谷歌实现2种新的强化学习算法,“比肩”DQN,泛化性能更佳

作者: 丰色 2021-04-29 14:53:14

  本文经AI新媒体量子位(公众号ID:QbitAI)授权转载,转载请联系出处。

强化学习(RL)算法持续“进化”中……

来自Google Research的研究人员,证明可以使用图表示 (graph representation)和AutoML的优化技术,来学习新的、可解析和可推广的RL算法!

他们发现的其中两种算法可以推广到更复杂的环境中,比如具有视觉观察的Atari游戏。

这一成就使得RL算法越来越优秀!

具体怎么个“优秀法”,请看下文:

损失函数表示为计算图

首先,对于强化学习算法研究的难点,研究人员认为,一种可能的解决方案是设计一种元学习方法。

该方法可以设计新的RL算法,从而自动将其推广到各种各样的任务中。

受神经架构搜索(NAS)在表示神经网络结构的图空间中搜索的思想启发,研究人员通过将RL算法的损失函数表示为计算图(computational graph)元学习RL算法。

其中使用有向无环图来表示损失函数,该图带有分别表示输入、运算符、参数和输出的节点。

该表示方法好处有很多,总的来说就是可用来学习新的、可解析和可推广的RL算法。

并使用PyGlove库实现这种表示形式。

基于进化的元学习方法

接下来,研究人员使用基于进化的元学习方法来优化他们感兴趣的RL算法。

其过程大致如下:

新提出的算法必须首先在障碍环境中表现良好,然后才能在一组更难的环境中进行训练。算法性能被评估并用于更新群体(population),其中性能更好的算法进一步突变为新算法。在训练结束时,对性能最佳的算法在测试环境中进行评估。

谷歌实现2种新的强化学习算法,“比肩”DQN,泛化性能更佳

本次实验中的群体(population)规模约为300个智能体,研究人员观察到在2-5万个突变后,发现候选损失函数的进化需要大约3天的训练。

为了进一步控制训练成本,他们在初始群体中植入了人类设计的RL算法,eg. DQN(深度Q学习算法)。

发现两种表现出良好泛化性能的算法

最终,他们发现了两种表现出良好泛化性能的算法

一种是DQNReg,它建立在DQN的基础上,在Q值上增加一个加权惩罚(weighted penalty),使其成为标准的平方Bellman误差。

第二种是DQNClipped,尽管它的支配项(dominating term)有一个简单的形式——Q值的最大值和平方Bellman误差(常数模),但更为复杂。

这两种算法都可以看作是正则化Q值的一种方法,都以不同的方式解决了高估Q值这一问题

最终DQNReg低估Q值,而DQNClipped会缓慢地接近基本事实,更不会高估。

性能评估方面,通过一组经典的控制环境,这两种算法都可以在密集奖励任务(CartPole、Acrobot、LunarLander)中持平基线,在稀疏奖励任务(MountainCar)中,性能优于DQN

谷歌实现2种新的强化学习算法,“比肩”DQN,泛化性能更佳

其中,在一组测试各种不同任务的稀疏奖励MiniGrid环境中,研究人员发现DQNReg在训练和测试环境中的样本效率和最终性能都大大优于基线水平。

谷歌实现2种新的强化学习算法,“比肩”DQN,泛化性能更佳

另外,在一些MiniGrid环境将DDQN(Double DQN)与DQNReg的性能进行可视化比较发现,当DDQN还在挣扎学习一切有意义的行为时,DQNReg已经可以有效地学习最优行为了。

最后,即使本次研究的训练是在基于非图像的环境中进行的,但在基于图像的Atari游戏环境中也观察到DQNReg算法性能的提高!

谷歌实现2种新的强化学习算法,“比肩”DQN,泛化性能更佳

这表明,在一组廉价但多样化的训练环境中进行元训练,并具有可推广的算法表示,可以实现根本的算法推广

此研究成果写成的论文,已被ICLR 2021接收,研究人员门未来将扩展更多不同的RL设置,如Actor-Critic算法或离线RL。

谷歌 强化学习 开发
上一篇:英国宣布将在今年年底前允许无人驾驶汽车上路 下一篇:联邦学习也不安全?英伟达研究用「没有隐私」的数据直接重建原图
评论
取消
暂无评论,快去成为第一个评论的人吧

更多资讯推荐

谷歌推出新AI工具 可识别常见皮肤状况

5月19日消息,据外媒报道,由于人工智能在医疗保健领域有多种用途,谷歌计划使用人工智能帮助用户了解更多常见的皮肤病。当与智能手机等技术相结合时,这种医学知识可以真正改善个人了解自身健康的方式。

Yu ·  2021-05-31 14:57:13
谷歌正在应用AI破解数据中心的下一代地热能

根据谷歌的说法,人工智能有望帮助解决这些问题,并开发出比目前世界各地部署的地热发电厂更高效、发电量更高的下一代地热发电厂。谷歌希望其在这一领域的投资将帮助公司实现到2030年为所有数据中心和办公室提供全天候无碳能源的目标。

佚名 ·  2021-05-25 14:36:47
谷歌推出新功能,利用 AI 工具拍照检测皮肤病

谷歌这项功能会展现每一个相匹配的皮肤状况,目前数据库中共有 280 种皮肤病的信息。此外,这个 AI 工具还是用了专业 CT 检查中用于检测糖尿病、肺癌的技术。

信鸽 ·  2021-05-19 10:10:11
谷歌大脑最新操作玩“复古”:不用卷积注意力,图像分类接近SOTA

这个架构名为MLP-Mixer,采用两种不同类型的MLP层,可以看做是一个特殊的CNN,使用 1×1卷积进行通道混合(按位操作),同时全感受野和参数共享的的单通道深度卷积进行字符混合(跨位操作)。

佚名 ·  2021-05-06 15:55:01
谷歌人工智能实验室DeepMind将在加拿大招募研究人员

2014年被谷歌收购的位于伦敦的人工智能实验室DeepMind将其寻找世界上最好的人工智能研究人员的工作扩展到了加拿大多伦多。

Yu ·  2021-05-06 08:48:30
机器学习新算法更好描述量子系统模型

近日,英国布里斯托大学量子工程技术实验室的研究人员在《自然·物理学》杂志上发表一篇新论文,解释了一种通过充当自主代理,使用机器学习对哈密顿模型进行逆向工程的算法。这种新算法对量子系统基本物理原理提供了宝贵见解,有望带来量子计算和传感领域的重大进步,并有可能翻开科学研究的新篇章。

张佳欣 ·  2021-04-30 15:12:07
强化学习在应用中寻找策略“最优解”

强化学习(RL)是一种强大的人工智能技术,能够掌握复杂的策略以控制各类大规模复杂系统,包括制造流水线、交通控制系统(道路/火车/飞机)、金融资产以及机器人等等。如今,强化学习正由实验室环境一步步走向真正具备现实影响力的应用场景。

科技行者 ·  2021-04-13 16:18:30
袖口里的“超能力”:Facebook腕带式AR传感器,可隔空打字、操控界面,LeCun点赞

Facebook最近公布的腕带式的AR传感器,让你在虚拟世界get绯红女巫同款技能。

子豪 ·  2021-03-22 11:18:53
Copyright©2005-2021 51CTO.COM 版权所有 未经许可 请勿转载