从特征检测器到视觉转换器:卷积神经网络的时代到此结束了吗?

作者: 读芯术 2020-12-24 17:57:35

本文转载自公众号“读芯术”(ID:AI_Discovery)。

近十年来,卷积神经网络一直在全球计算机视觉研究领域发挥着主导作用。但研究者们正在提出一种新方法,想要利用转换器的功能赋予图像更深层的意义。

转换器最初是为自然语言处理任务而设计的,主攻神经网络机器翻译。后来,谷歌研究院的阿列克谢·多索维斯基(Alexey Dosovitskiy)、卢卡斯·拜尔(Lucas Beyer)等人撰写了一篇题目为《一幅图像值得16x16个字符:大规模用于图像识别的转换器》的论文,提出了一种名为视觉转换器(ViT)的架构,该架构可通过转换器处理图像数据。

卷积神经网络(CNN)存在的问题

在深入研究视觉转换器的运行方式之前,厘清卷积神经网络的缺点和根本缺陷很有必要。首先,卷积神经网络无法编码相对空间信息。也就是说,它仅关注于检测某些特征,而忽略了相对空间位置。

从特征检测器到视觉转换器:卷积神经网络的时代到此结束了吗?

上面两幅图像都会被识别为人脸,因为卷积神经网络只关注输入图像中是否存在某些特征,而忽略了它们相对于彼此的位置。

卷积神经网络的另一个主要缺陷是池化层。池化层会丢失很多有用的信息,比如最活跃的特征检测器的准确位置。换句话说,它能检测到某些特征,但却无法传达其在图像中的准确位置。

转换器简介

从本质上说,转换器应用了自我注意的概念。这个概念可以分为两部分:自我和注意。注意指的仅仅是可训练的权重,它可以模拟输入句子中各部分的重要程度。

假设输入了一个句子,它会观察句子中的每个单词,并将该单词在句子中的位置与同一句子中所有单词(包括该单词在内)的位置进行比较。所以说,转换器应用了自我注意的概念。转换器根据这些位置线索计算分数,然后用这些线索更好地编码句子的语义或意义。

从特征检测器到视觉转换器:卷积神经网络的时代到此结束了吗?

从以上示例中,大家可以发现,转换器中的注意单元正在比较单词“it”与句子中包括“it”在内的其他所有单词的位置。不同的颜色代表着同时独立运行的多个注意单元,目的是发现这些联系中的不同模式。

一旦通过上述比较计算出一个分数,它们就会经由结构简单的前馈神经元层发送出去,最后进行规范化处理。在训练期间,转换器学习了这些注意向量。

模型架构

从特征检测器到视觉转换器:卷积神经网络的时代到此结束了吗?

和常规转换器通过单词了解句子一样,视觉转换器通过像素获得类似的图像效果。不过,这里有一个问题。与文字不同,单一像素本身并不传达任何含义,这也是我们选择使用卷积过滤器的原因之一(它可对一组像素进行操作)。

它们将整个图像分成小块图像或单词。所有小块图像都通过线性投影矩阵展平,同它们在图像中的位置一起送入转换器(如上图所示)。在这一过程中,研究人员们选择了大小为16x16的小块图像,所以才有了这样诗意的研究题目。

现在,这些嵌入的小块图像通过多方面自我注意的交替层、多层感知器(结构简单的前馈神经元层)和类似于常规转换器中的层规范化,分类头安装在转换器编码器的末端,从而预测最终分类。像其他的卷积模型一样,人们可以使用预先训练好的编码器库和一个自定义MLP层来微调模型,以适应其分类任务。

从特征检测器到视觉转换器:卷积神经网络的时代到此结束了吗?

重点

论文作者在ImageNet、CIFAR-10/100和JFT-300M(谷歌的私有数据集,拥有3亿张高分辨率图像)等各种标注数据集上训练了该模型。在准确性方面,他们的模型几乎和其他先进的卷积模型一样准确(在很多情况下甚至更准确),但训练时间大大减少了(减少了大约75%),而且使用的硬件资源也更少。

视觉转换器的另一个优点是能够很早地了解到更高层级的关系,原因是它使用了全球注意而非局部注意。人们甚至在一开始就可以注意到那些相对于卷积神经网络很遥远的事物。除了在训练过程中保持高效以外,视觉转换器还会随着训练数据的增多而表现愈佳。

从特征检测器到视觉转换器:卷积神经网络的时代到此结束了吗?

图源:unsplash

难道这意味着卷积神经网络已经过时,而视觉转换器成为了新常态吗?

当然不是!虽然卷积神经网络存在不足,但它在处理对象检测和图像分类等任务方面仍然十分高效。作为最先进的卷积架构,ResNet和EfficientNet仍然占据着处理此类任务的主导地位。然而,转换器在自然语言处理任务(比如语言翻译)方面取得了突破,在计算机视觉领域显示出了不小的潜力。

在这个不断发展的研究领域,未来会发生什么?只有时间会告诉我们答案。

卷积神经网络 特征检测器 视觉转换器
上一篇:人工智能时代将至,教育或将发生大改变,未来教育会人工智能化? 下一篇:年终总结:2020年安防行业助力应对新冠疫情挑战
评论
取消
暂无评论,快去成为第一个评论的人吧

更多资讯推荐

不懂卷积神经网络?别怕,看完这几张萌图你就明白了!

这篇文章用最简明易懂的方式解释了卷积神经网络(CNN)的基本原理,并绕开了里面的数学理论。

佚名 ·  2019-05-17 15:48:16
AI在诊断皮肤癌的比赛中战胜了17个国家的58名皮肤科医生

据法新社5月28日报道,一个由德国、美国和法国研究人员组成的团队训练了一个人工智能(AI)系统辨别危险性皮肤病变与良性病变,并向该系统展示了超过10万幅图片。

杨漾 ·  2018-06-01 09:52:23
深入浅出解读卷积神经网络

卷积神经网络和全连接的神经网络结构上的差异还是比较大的,全连接的网络,相邻两层的节点都有边相连,而卷积神经网络,相邻节点只有部分节点相连。

石文华 ·  2017-11-24 11:10:39
卷积神经网络如何进行图像识别

在机器视觉的概念中,图像识别是指软件具有分辨图片中的人物、位置、物体、动作以及笔迹的能力。计算机可以应用机器视觉技巧,结合人工智能以及摄像机来进行图像识别。

Savaram Ravindra ·  2017-09-08 13:30:32
CVPR 2017论文解读:特征金字塔网络FPN

近日,CVPR 2017获奖论文公布,引起了业内极大的关注。但除了这些获奖论文,还有众多精彩的论文值得一读。

李俊 ·  2017-07-26 10:32:51
面部识别的利与弊:是福还是祸?

虽然现代技术使面部识别更加精确和安全,但与面部识别隐私问题和监控有关的担忧也在增加。因此,让我们在这篇文章中探讨一下这该技术的利与弊。

Naveen Joshi ·  2021-06-01 16:36:22
人工智能和5G如何结合以实现物联网收入最大化

网络系统通过信令和使用软件以及分析来检测和分类设备非常棘手,并且对有限且日益紧张的网络资源提出了巨大的需求。然而,解决这些问题有一个主要解决方案:采用人工智能、自动化和5G技术。

Jordi Castellvi ·  2021-06-01 13:49:15
MIT团队最新研究,仅靠LiDAR和2D地图实现端到端自动驾驶

最近, MIT 计算机科学与人工智能实验室(CSAIL)团队成功展示了一种基于机器学习的自动驾驶系统,该端到端框架仅使用 LiDAR获取的原始 3D 点云数据和类似于手机上的低分辨率 GPS 地图就能进行自主导航,并且大大提升了鲁棒性。

文龙 ·  2021-06-01 12:47:51
Copyright©2005-2021 51CTO.COM 版权所有 未经许可 请勿转载