大脑也在用分布式强化学习?DeepMind新研究登上《Nature》

作者: 佚名 2020-01-16 15:57:36

 分布式强化学习是智能体在围棋、星际争霸等游戏中用到的技术,但 DeepMind 的一项研究表明,这种学习方式也为大脑中的奖励机制提供了一种新的解释,即大脑也应用了这种算法。这一发现验证了分布式强化学习的潜力,同时也使得 DeepMind 的研究人员越发坚信,「现在的 AI 研究正走在正确的道路上」。

多巴胺是人们所熟悉的大脑快乐信号。如果事情的进展好于预期,大脑释放的多巴胺也会增多。

在人脑中存在奖励路径,这些路径控制我们对愉悦事件的反应,并通过释放多巴胺的神经元进行介导。例如,在著名的巴布洛夫的狗实验中,当狗听到铃声便开始分泌口水时,这一反应并非已经获得了奖励,而是大脑中的多巴胺细胞对即将到来的奖励产生的一种预测。

之前的研究认为,这些多巴胺神经元对奖励的预测应当是相同的。

大脑也在用分布式强化学习?DeepMind新研究登上《Nature》

但近日,DeepMind 的研究人员通过使用分布式强化学习算法发现,每个多巴胺神经元对奖励的预测很不相同,它们会被调节到不同水平的「悲观」和「乐观」状态。研究者希望通过这套算法研究并解释多巴胺细胞对大脑的行为、情绪等方面的影响。这份研究成果昨日登上了《Nature》。

大脑也在用分布式强化学习?DeepMind新研究登上《Nature》

Nature 论文链接:https://www.nature.com/articles/s41586-019-1924-6

强化学习算法和多巴胺奖惩机制研究

强化学习算是神经科学与 AI 相连接的最早也是最有影响力的研究之一。上世纪 80 年代末期,计算机科学研究者试图开发一种算法,这种算法仅依靠奖惩反馈作为训练信号,就可以单独学会如何执行复杂的行为。这些奖励会加强使其受益的任何行为。

解决奖励预测问题的重要突破是时序差分算法(TD),TD 不会去计算未来的总体回报,它尝试预测当前奖励和未来时刻预期奖励之和。当下一个时刻来临时,将新的预测结果与预期中的相比,如果有出入,算法会计算二者之间的差异,并用此「时序差分」将旧版本的预测调整为新的预测。

不断训练之后,「预期」和「现实」会逐渐变得更加匹配,整个预测链条也会变得越来越准确。

与此同时,很多神经科学研究者们,专注于多巴胺神经元的行为研究。当面对即将到来的奖励时,多巴胺神经元会将「预测」和「推断」的值发送给许多大脑区域。

这些神经元的「发送」行为与奖励的大小有一定关系,但这些反应常常依靠的是外部感性信息输入,并且在给定任务中的表现也会随着生物体经验的丰富而改变。例如,对于特定的刺激产生的奖励预测变少了,因为大脑已经习惯了。

一些研究者注意到,某些多巴胺神经元的反应揭示了奖励预测的漏洞:相比于被训练应该生成的那种「预期」,它们实际发送的预期总是或多或少,和训练的预期不太一样。

于是这些研究者建议大脑使用 TD 算法去计算奖励预测的误差,通过多巴胺信号发送给大脑各个部位,以此来驱动学习行为。从那时起,多巴胺的奖励预测理论逐渐在数以万计的实验中得到证实,并已经成为神经科学领域最成功的定量理论之一。

自 TD 被应用于多巴胺奖惩机制研究以来,计算机科学家在不断优化从奖惩机制中学习的算法。自从 2013 年以来,深度强化学习开始受到关注:在强化学习中使用深度神经网络来学习更强的表示,使强化学习算法解决了精巧性和实用度等问题。

分布式强化学习是一种能让神经网络更好地进行强化学习的算法之一。在许多的情况下,尤其是很多现实情况中,未来奖励的结果实际上是依据某个特定的行为而不是一个完全已知的量进行的预测,它具有一定的随机性。

图 1 是一个示例,一个由计算机控制的小人正在越过障碍物,无法得知它是会掉落还是跨越到另一端。所以在这里,预测奖励就有两种,一种代表坠落的可能性,一种代表成功抵达另一边的可能性。

大脑也在用分布式强化学习?DeepMind新研究登上《Nature》

图 1:当未来不确定时,可以用概率分布的方式去描述未来奖励。未来的某一部分可能会是「好的(绿色)」,其他则代表「不好(红色)」。借助各种 TD 算法,分布式强化学习可以学习关于这个奖励预期的分布情况。

在这种情况下,标准 TD 算法学习预测将来的平均奖励,而不能获得潜在回报的双峰分布(two-peaked distribution)。但是分布式强化学习算法则能够学习预测将来的全部奖励。上图 1 描述了由分布式智能体学习到的奖励预测。

因此,分布式强化学习算法在多巴胺研究中的应用就进入了研究者们的视野。

分布式 TD:性能更好的强化学习算法

新的研究采用了一种分布式强化学习算法,与标准 TD 非常类似,被称为分布式 TD。标准 TD 学习单个预测(平均期望预测),而分布式 TD 学习一系列不同的预测。而分布式 TD 学习预测的方法与标准 TD 相同,即计算能够描述连续预测之间差异的奖励预测误差,但是每个预测器对于每个奖励预测误差都采用不同的转换。

例如,当奖励预测误差为正时(如下图 2A 所示),一些预测器会有选择性地「扩增」或「增持」奖励预测误差。这使得预测器学习更乐观的奖励预测,从而对应奖励分布中的更高部分。但同时,另一些预测器扩增它们的负奖励预测误差(如下图 2A 所示),所以学习更悲观的奖励预测。因此具有不同悲观和乐观权重的一系列预测器构成了下图 2B 和 2C 的完整奖励分布图。

图 2:分布式 TD 学习对奖励分布不同部分的价值估计。

除了简洁性之外,分布式强化学习还有另一项优势,当它与深度神经网络结合时会非常强大。过去五年,基于原始深度强化学习 DQN 智能体的算法有了很多进展,并且这些算法经常在 Atari 2600 游戏中的 Atari-57 基准测试集上进行评估,证明了分布式强化学习算法的性能优势。

多巴胺研究中的分布式 TD

由于分布式 TD 在人工神经网络中具有很好的性能,因此本研究考虑采用分布式 TD,尝试研究大脑的奖惩机制。

在研究中,研究者联合哈佛大学,对老鼠多巴胺细胞的记录进行分析。在任务中,这些老鼠获得数量未知的奖励(如下图 4 所示)。研究者的目的是评估多巴胺神经元的活动是否与标准 TD 或分布式 TD 更为一致。

以往的研究表明,多巴胺细胞改变它们的发放率(firing rate)来表明存在的预测误差,即一个动物是否接收了比预期更多或更少的奖励。我们知道,当奖励被接收时,预测误差应为零,也就是奖励大小应与多巴胺细胞预测的一样,因此对应的发放率也不应当改变。

对于每个多巴胺细胞,如果研究者确定了其基准发放率没有改变,则其奖励大小也可以被确定。这个关系被称之为细胞的「逆转点」。研究者想要弄清楚不同细胞之间的逆转点是否也存在差异。

如下图 4C 所示,细胞之间存在着明显差异,一些细胞会预测非常大的奖励,而另一些只预测出非常小的奖励。相较于从记录中固有随机变化率所能预期的差异,细胞之间的实际差异要大得多。

大脑也在用分布式强化学习?DeepMind新研究登上《Nature》

大脑也在用分布式强化学习?DeepMind新研究登上《Nature》

图 4:在这项任务中,老鼠获得的水奖励(water reward)通过随机方法确定,并可以调整,范围是 0.1-20 UL。

在分布式 TD 中,奖励预测中的这些差异是由正或负奖励预测误差的选择性扩增引起的。扩增正奖励预测可以获得更乐观的奖励预测,而扩增负奖励可以获得更悲观的预测。所以,研究者接下来测量了不同多巴胺细胞对正或负期望的扩增程度,并发现了细胞之间存在着噪声也不能解释的可靠多样性。并且关键的一点是,他们发现扩增正奖励预测误差的同一些细胞也表现出了更高的逆转点(上图 4C 右下图),也就是说,这些细胞期望获得更高的奖励。

最后,分布式 TD 理论预测,有着不同的逆转点(reversal point)的细胞应该共同编码学到的奖励分配。因此研究人员希望能够探究:是否可以从多巴胺细胞的发放率解码出奖励分配到不同细胞的分布。

如图 5 所示,研究人员发现,只使用多巴胺细胞的放电速率,确实有可能重建奖励的分布(蓝色线条),这与老鼠执行任务时奖励的实际分布(灰色区域)非常接近。

大脑也在用分布式强化学习?DeepMind新研究登上《Nature》

图 5:多巴胺细胞群编码了学到的奖励分布的形状。

总结

研究人员发现,大脑中的多巴胺神经元被调节到不同水平的「悲观」和「乐观」。如果它们是一个合唱团,那么所有的神经元不会唱同一个音域,而是彼此配合——每个神经元都有自己的音域,如男高音或女低音。在人工强化学习系统中,这种多样化的调整创造了更加丰富的训练信号,极大地加快了神经网络的学习。研究人员推测,大脑可能出于同样的原因使用这套机制。

大脑中分布式强化学习的存在可以为 AI 和神经科学的发展提供非常有趣的启示。首先,这一发现验证了分布式强化学习的潜力——大脑已经用到了这套算法。

其次,它为神经科学提出了新的问题。如果大脑选择性地「倾听」乐观/悲观多巴胺神经元会怎么样呢?会导致冲动或抑郁吗?大脑有强大的表征能力,这些表征是如何由分布式学习训练出的呢?例如,一旦某个动物学会了分配奖励的机制,在它的下游任务会如何使用这种表征?多巴胺细胞之间的乐观情绪可变性与大脑中其他已知的可变形式存在什么关联?这些问题都需要后续研究进一步解释。

最后,DeepMind 的研究人员希望通过这些问题的提出和解答来促进神经科学的发展,进而为人工智能研究带来益处,形成一个良性循环。

AI 数据 人工智能
上一篇:未来面部识别技术的最大问题是几乎不会出错 下一篇:人工智能和物联网改变汽油零售行业
评论
取消
暂无评论,快去成为第一个评论的人吧

更多资讯推荐

加速算力的迭代优化 AI芯片需破解落地难题

AI芯片怎样支撑多姿多彩的人工智能应用落地?评测标准进展如何?今年的亮点、看点又在哪?科技日报记者采访了相关专家。

唐 芳 ·  13h前
机器学习第一步,这是一篇手把手的随机森林入门实战

到了 2020 年,我们已经能找到很多好玩的机器学习教程。本文则从最流行的随机森林出发,手把手教你构建一个模型,它的完整流程到底是什么样的。

机器之心 ·  15h前
互联网巨头集体封杀,AI换脸能走多远?

多少人还记得去年在微博爆火的视频:有人将《射雕英雄传》中朱茵扮演的“黄蓉”换成了杨幂,换脸后的“黄蓉”毫无痕迹,并且轮廓清晰、表情自然,完全看不出是经过换脸的。

读芯术 ·  16h前
阿里达摩院再造AI抗疫技术:20秒判读CT影像,识别准确率达96%

阿里方面最新消息,达摩院联合阿里云针对新冠肺炎临床诊断研发了一套全新AI诊断技术。

允中 ·  19h前
人工智能如何赋能经济高质量发展

继第一、第二、第三次工业革命之后,人工智能可能引发人类的第四次工业革命,并且其对人类经济社会文化的影响深度远远超过前三次革命。如何看待人工智能对我经济社会发展的影响?如何形成人工智能产业新生态?记者专访了中国科学技术发展战略研究院研究员李修全。

佚名 ·  23h前
欺诈不可怕,机器学习算法分分钟拿下! 精选

根据一项调查,采用基于AI的解决方案的防欺诈专家中有80%认为AI对打击欺诈者有效。但是,仍然存在的问题是弄清楚哪种机器学习算法可以有效地检测未知的欺诈模式。监督学习和无监督学习算法哪一个更有效?

读芯术 ·  2天前
助力抗疫,人工智能和大数据将全面爆发? 精选

新型冠状病毒肺炎疫情的爆发和传播,牵动着全国人民的心。社会各界纷纷投入到这场没有硝烟的疫情阻击战中。

中国经营报 ·  3天前
人工智能和区块链如何在2020年彻底改变移动应用产业?

2020年也不例外。移动应用行业将以明显的方式增长。人们需要了解人工智能行业将发生什么变化,以及企业在新的一年中如何计划使用这些革命性技术。

Pradeep Makhija ·  3天前
Copyright©2005-2020 51CTO.COM 版权所有 未经许可 请勿转载