用深度学习来解析梦境中出现的物体

作者: Harold Yue 2017-11-06 14:00:46

这篇文章主要的工作算是机器学习和神经科学的结合工作,需要读者在这两个方向有一定的基础。

机器学习简介:机器学习算法是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法。最近大火的深度学习则是机器学习的一个分支,主要用基于人工神经网络的各种方法来实现目的,现在有很多变种,本文中使用的神经网络是一个卷积神经网络(Convolutional Neural Networks, CNN)。

文章中神经科学实验部分主要使用的信号读取方法是功能磁共振( functional Magnetic Resonance Imaging,功能核磁共振),主要原理是通过监测脑区血流量的变化来间接测量脑区的活动程度,当一个脑区活动程度增强的时候,相应的血流量也会增加,为脑区输送更多的氧气,影响,以及排除废物。功能磁共振的空间分辨率很高,但其时间分辨率比较有限,只能采集到2s 左右时间内的平均活动程度,同时对于神经活动的检测有一定延时。

用深度学习来解析梦境中出现的物体

日前去开ASSC 的时候听到一个很有趣的工作,用深度学习来解析人类梦境中出现的物体类别。我见到的为数不多融合深度学习和神经科学的工作。回来之后翻了下相关文章,来在这分享下。

本文介绍的总体思路:

  1. 证明视知觉和梦境在视觉皮层上的神经活动有部分类似的激活模式。
  2. 以正常视知觉为训练集训练一个 Decoder,从被试的视觉皮层神经活动信号到***的物体类别。这里是分成两部分,先从 fMRI 信号到特征空间,再从特征空间用相关性分析的办法推测物体类别。
  3. 用这个 Decoder 来预测梦境中的物体类别。
  4. 夹点私货,用里面的数据来说下视觉皮层和卷积神经网络底层的相似性,也算是解释了为什么用卷积神经网络的效果要更好。
  5. ***我个人从一个认知神经科学研究生和一个机器学习初学者的角度来分析下这个工作。

前三点,对应了他们组发的三篇文章。我们从头开始说。 先是13年的一个工作Neural Decoding of Visual Imagery During Sleep.

实验部分:

实验过程中被试躺在核磁共振成像仪里面,在持续通过脑电图(electroencephalogram, EEG)来检测被试的睡眠状态的同时扫描大脑活动。在通过特定的脑电特征了解被试进入梦境状态之后,会叫醒被试并让其口头描述梦境内容。(如下图所示)

用深度学习来解析梦境中出现的物体

结果部分:

在梦境实验之前,作者收集了被试们在看图片时候视觉皮层的Fmri信号,并基于此训练一个线性SVM(Support Vector Machine,支持向量机)分类器。并用此分类器尝试解码出被试在梦境状态下的看到的物体,这里作者使用的任务相对简单,是要在两个物体类别里面挑出正确的那一个。结果是预测准确率大于50%,高于随机水平,说明视知觉和梦境在视觉皮层有类似的信息表征机制。

这个工作做的其实超前,在13年的时候大概是***尝试解析梦境的工作,也是很早把机器学习和神经科学结合起来的工作,但是由于和今天的主题不是特别相关,所以只介绍了我需要的结果,至于具体用的思路和方法,在此略过,有兴趣的同学,可以自行查找原文。

用深度学习来解析梦境中出现的物体

接下来是重点,如何从被试看图片的 fMRI 信号中解出物体类别。

实验部分:

用深度学习来解析梦境中出现的物体

作者在此主要做了两类实验,一类是正常看物体的图片,另一类是基于线索来想象物体的形象。

在看物体实验中,被试会被呈现不同的图片,每张图片9秒钟。这里加了一个比较简单的小任务,当出现的图片和上一张出现的图片相同的时候,被试需要做按键反应。这里是为了让被试的注意维持在图片上。 第二类是想象实验,在线索阶段,会有1个目标词汇和49个干扰词出现,在听到‘滴’声之后,被试要闭上眼睛,想象目标词汇的形象。过了15s,听到‘滴’ 之后,睁眼,确认想象的形象是目标形象。 在实验进行的过程中,会采集被试视觉皮层的fMRI信号。

从fMRI到物体类别

接下来的数据分析工作,也就是从fMRI信号到物体类别是分两步走的,

***步是fMRI 信号到特征空间。

作者在此用了一个8层预训练好的神经网络来做特征提取。在前七层中每层随机选1000个神经元,以及第八层的全部1000个神经元,把一张图片前向传播过网络后,这些神经元的输出作为特征。这样每张图片前向传播之后,可以获得一个 8层 * 1000 特征/层 的特征矩阵。

之后是被试用被试的fMRI信号来训练一系列Decoder,从被试的fMRI信号来拟合不同层中不同特征的值。来实现从fMRI信号到特征空间的转换。

用深度学习来解析梦境中出现的物体

第二步是从特征空间到物体的类别。

这里作者首先做的是,计算各个物体类别的特征矩阵。他的做法是,每一个类别下面所有图片前向跑一遍网络,把生成的所有的特征矩阵平均,得到一个物体类别对应的特征矩阵。

如果要计算上一步中,被试梦境中解码出来的特征矩阵具体对应着哪个类别的物体。这里做一个简单的相关,取相关系数***的那个类别为预测类别。

结果:

这篇文章做出的结果不能说很好,但是确实为这个领域的应用提出了一个有趣的方向。

用深度学习来解析梦境中出现的物体

这张图截取的是卷积神经网络部分预测准确率。可以看到,在被试真正看到图片的情况下,使用某些层的预测准确率可以到达很高,超过90%,在直接用这个网络迁移到想象情况下,也可以达到一个高于随机猜测的准确率。明显看出,现有模型对于想象图片的预测能力要差很多。其实想来有一定道理,***就是,想象和直接看肯定有不同的底层视觉机制。第二就是模型是基于真正看图片的情况来训练的,迁移到另外一个相似却不完全相同的任务上表现表现自然会差一些。

解梦的工作:

这篇文章是重点讲的。再重点也不会逐字翻译,我只会把整体的逻辑讲通。喜欢这篇文章的同学们欢迎去看原文。

这篇文章很巧妙的地方在于,他没做实验,用的是***篇文章的数据和第二篇文章的模型。

用深度学习来解析梦境中出现的物体
Single category feature decoding with averaged trials

梦境中单物体类别的识别。

这里用的是书的例子,被试在做梦的时候,可能会在多个梦境中都出现书这个物体,作者把这几个梦境对应的fMRI信号加起来做平均,然后通过文章2中训练处的Decoder 来预测出当前梦境的特征矩阵,之后和书这个类别的特征矩阵做相关。

结果显示,高级脑区和神经网络的高层对于物体识别的效果比较好,当他们两结合在一起时候产生的效果***。

用深度学习来解析梦境中出现的物体
Multi-category feature decoding with individual trials

当然,一个梦境里面只出现书也不现实,大家都有这样的经历,梦境更多是一整个场景,会出现多个物体,如上图,这个梦境中,除了书还有一个男人和食物。所以作者也做了这个实验,单个梦境里面多物体的识别。用的是单个梦境对应fMRI信号Decode出来的特征矩阵来和被试报告的所有类别的特征矩阵的平均矩阵做相关比较。这个预测结果更差了,但是从趋势上和上一个实验类似。高级脑区和网络的高层有更好的预测能力。

***一个实验,其实是重现了文章1中***的实验,在两个物体类别中找到真正在梦境中出现的那个类别。用的方法也是特征矩阵的相关。准确率大大高于***篇文章基于SVM(支持向量机)的结果。

用深度学习来解析梦境中出现的物体

这里也可以看到的是,看到物体实验的结果在神经网络的中间层(4,5,6层)表现比较好,到***层反倒有一个下降的趋势,这个趋势在想象的结果中也有体现。对于梦境这个实验,虽然预测效果同样大于随机猜测,但是在7层出现了一个下降而又在8层回升的现象,模式与看图片和想图片的模式不符。暗示梦境的神经机制和视知觉虽然有一定相似性,但是具体的机制还存在一定的差异。

夹带私货。 用这个文章的数据来简要讨论下卷积神经网络和人类视觉皮层的相似性。而这个相似性也是我写这篇文章的原因之一。

用深度学习来解析梦境中出现的物体
Image feature decoding and the homology of CNN and the human brain.

这个图出现在第二篇文章之中。a 是预测的特征矩阵不同层和实际的特征值的对比,有一定的重合,说明Decoder 确实在一定程度上学到了 从fMRI信号到卷积神经网络不同层特征的映射。B图是用不同视觉皮层预测出来的feature value 和 实际的feature value 的比较。这里比较有趣的是,低级的视觉皮层,如V1,V2,V3 在拟合低层卷积神经网络 的时候效果相对稍好,而高级视觉皮层(FFA ( fusiform face area,梭状回面孔识别区,神经科学研究发现主要参与人脸识别),PPA(Parahippocampal place area,神经科学发现主要参与场景识别))在拟合高层卷积神经网络的时候效果相对稍好。

用深度学习来解析梦境中出现的物体
Preferred images and weight distributions for CNN layers.

在神经科学领域,有类似的研究,证明 FFA,PPA 这种相对高级的皮层,会对更复杂的视觉刺激有比较强烈的反应,如FFA,主要对人脸反应,PPA 对物体,而底层皮层,如V1,V2,V3 更多的对底层视觉元素反应,如不同方向的线以及颜色等等。作者用一种 Activation Maximization 的方法来生成更能刺激相应层的图片,并用这些图片来给被试看,并用这些数据的fMRI来生成特征矩阵。发现了类似的现象。人越高级的皮层,拟合的结果对应高级卷积层的效果越好。

这暗示着卷积神经网络和人类视觉皮层有一定的相似性,低级主管局部特征,高层主管语义特征。

整体文章就完结了。可能有些朋友觉得看的一头雾水,我在这重新整理下行文逻辑。

  1. 证明视知觉和梦境在视觉皮层上的神经活动有部分类似的 pattern。
  2. 以正常视知觉为训练集训练一个 Decoder,从被试的视觉皮层神经活动信号到***的物体类别。这里是分成两部分,先从 fMRI 信号到特征空间,再从特征空间用相关性分析的办法推测物体类别。
  3. 用这个 Decoder 来预测梦境中的物体类别。
  4. 夹点私货,用里面的数据来说下 视觉皮层和 卷积神经网络底层的相似性,也算是解释了 为什么用卷积神经网络的效果要更好。
  5. ***我个人从一个认知神经科学研究生和一个机器学习初学者的角度来分析下这个工作。个人对一系列文章的评价:很有趣的工作,13年的时候,***次用fMRI +机器学习技术尝试解析梦境,15年的时候,能做到以一定的准确程度从被试的fMRI信号中成功解析看到的物体,从这两点来看,是非常有开创性的工作。除此之外,关于卷积神经网络 和相关脑区的比较也是比较有趣的工作,一定程度上说明了卷积神经网络和人类视觉皮层的相似性。

作为一个认知神经科学研究生,我认为这几个实验做得挺好的,简单,但是十分有效,如果说有什么改进的话,就是如果能来和我们所合作,用7T更高分辨率来试一下是不是会更好啊,还有就是***的一些序列可能能做到更好的结果。但是相信作者也是有一些权衡的,不止要考虑分辨率,还要考虑SNR, 尤其是梦境里面,噪音也需要注意一下。

作为一个机器学习方向初学者来说,我个人认为,可以改进的地方还是有一些的,主要集中在模型部分。 这个8层神经网络如果用一些更先进的模型,会不会有一些更好的效果。还有特征矩阵做平均,卷积神经网络在低层只是能对简单特征进行反应,一个物体的不同面的局部特征差异会比较大,这样做平均的结果,会导致实际的预测能力比较差。个人觉得或许一个好一些的方法是做继续前向,***得出类别之后来做投票。除此之外,我个人还有一些其他想法,想来用我这边的一些东西来试着实现下。

深度学习 神经科学 梦境
上一篇:大规模机器学习框架的四重境界 下一篇:快消品图像识别丨无人店背后的商品识别技术
评论
取消
暂无评论,快去成为第一个评论的人吧

更多资讯推荐

谈谈基于深度学习的目标检测网络为什么会误检,以及如何优化目标检测的误检问题

在训练人脸检测网络时,一般都会做数据增强,为图像模拟不同姿态、不同光照等复杂情况,这就有可能产生过亮的人脸图像,“过亮”的人脸看起来就像发光的灯泡一样。

刘冲 ·  21h前
报告指出:中国人工智能专利申请数量居全球首位

中国在自然语言处理、芯片技术、机器学习等10多个人工智能子领域的科研产出水平居于世界前列。而在人机交互、知识工程、机器人、计算机图形、计算理论领域,中国还需努力追赶。

Yu ·  2天前
深度学习(Deep learning)入门导读

2016年Google人工智能程序阿尔法围棋(AlphaGo)对战世界围棋选手李世石,最终以4:1的成绩获得胜利,这惊人的一幕将国内外研究和学习人工智能的热题推向了新的高潮。然而,何为深度学习?本文将揭开深度学习的面纱。

洛辰不才 ·  2天前
人工智能时代到来后,有哪些工作难以代替?

我们到底应该如何面对人工智能时代?尤其是哪些工作在这个时代难以代替?这是值得人们认真研究和解决的问题。

江东 ·  3天前
启动机器学习/深度学习项目的八种方法

从探索性的数据分析到自动机器学习(AutoML),组织需要使用这些技术来推动其数据科学项目发展,并建立更好的模型。

李睿 ·  3天前
人工智能的三个必要条件

2016年,AlphaGo下围棋战胜李世乭,大家都认为人工智能的时代到来了。人工智能也是同样的在一定的历史契机下,几个独立发展的领域碰巧合并在一起就产生了巨大的推动力。这一波人工智能发展的三个必要条件是:深度学习模型,大数据,算力(并行计算)。

麦教授说 ·  2021-04-10 16:09:18
企业在应用人工智能时不可不知的5个误区

研究表明,70%以上的企业如今将人工智能视为游戏规则的改变者。然而,目前使用人工智能或计划很快使用人工智能的企业不到40%。人们对人工智能重要性的认识差距仍然很大,以下是五个关于人工智能的常见误区或误解。

Geertrui Mieke ·  2021-04-09 11:05:47
Java为什么不能真正支持机器/深度学习?到底还欠缺了什么

自1998年以来,就多个企业的变革而言,Java一直处于领先地位 - 网络,移动,浏览器与原生,消息传递,i18n和l10n全球化支持,扩展和支持各种企业信息存储值得一提的是,从关系数据库到Elasticsearch。

佚名 ·  2021-04-08 10:01:48
Copyright©2005-2021 51CTO.COM 版权所有 未经许可 请勿转载