一文看懂:“计算机视觉”到底是个啥?

作者: 佚名 2017-03-16 15:28:20

想象一下,有人朝你扔过来一个球,你会怎么办?当然是马上把它接祝这个问题是不是弱智死了?

但实际上,这一过程是最复杂的处理过程之一,而我们目前尚处于理解它的阶段,离重塑还非常遥远。这就意味着,发明一个像人类一样去观看的机器,是一项非常艰巨的任务,不仅是让电脑去做到非常困难,甚至我们自己都无法确定完整的细节。

实际上的过程大概如下:首先球进入人类的视网膜,一番元素分析后,发送到大脑,视觉皮层会更加彻底地去分析图像,把它发送到剩余的皮质,与已知的任何物体相比较,进行物体和纬度的归类,最终决定你下一步的行动:举起双手、拿起球(之前已经预测到它的行进轨迹)。

上述过程只在零点几秒内发生,几乎都是完全下意识的行为,也很少会出差错。因此,重塑人类的视觉并不只是单一一个困难的课题,而是一系列、环环相扣的过程。

早在1966年,人工智能领域的先锋派人士Marivin Minsky就曾经给自己的研究生出题,要求他们“把摄像机连到一台电脑上,让它描述自己看到了什么。”而50年之后,今天的人们仍然在研究相同的课题。

这一领域的深入研究是从20世纪50年代开始的,走的是三个方向——即复制人眼(难度系数十颗星);复制视觉皮层(难度系数五十颗星),以及复制大脑剩余部分(难度系数一百颗星)。

复制人眼——让计算机“去看”

目前做出最多成效的领域就是在“复制人眼”这一领域。在过去的几十年,科学家已经打造了传感器和图像处理器,这些与人类的眼睛相匹配,甚至某种程度上已经超越。通过强大、光学上更加完善的镜头,以及纳米级别制造的半导体像素,现代摄像机的精确性和敏锐度达到了一个惊人的地步。它们同样可以拍下每秒数千张的图像,并十分精准地测量距离。

数码相机里的图像传感器

但是问题在于,虽然我们已经能够实现输出端极高的保真度,但是在很多方面来说,这些设备并不比19世纪的针孔摄像机更为出色:它们充其量记录的只是相应方向上光子的分布,而即便是最优秀的摄像头传感器也无法去“识别”一个球,遑论将它抓祝

换而言之,在没有软件的基础上,硬件是相当受限制的。因此这一领域的软件才是要投入解决的更加棘手的问题。不过现在摄像头的先进技术,的确为这软件提供了丰富、灵活的平台就是了。

复制视觉皮层——让计算机“去描述”

要知道,人的大脑从根本上就是通过意识来进行“看”的动作的。比起其他的任务,在大脑中相当的部分都是专门用来“看”的,而这一专长是由细胞本身来完成的——数十亿的细胞通力合作,从嘈杂、不规则的视网膜信号中提取模式。

如果在特定角度的一条沿线上出现了差异,或是在某个方向上出现了快速运动,那么神经元组就会兴奋起来。较高级的网络会将这些模式归纳进元模式(meta-pattern)中:它是一个朝上运动的圆环。同时,另一个网络也相应而成:这次是带红线的白色圆环。而还有一个模式则会在大小上增长。从这些粗糙但是补充性的描述中,开始生成具体的图像。

使用人脑视觉区域相似的技术,定位物体的边缘和其他特色,从而形成的“方向梯度直方图”

由于这些网络一度被认为是“深不可测的复杂”,因此 在计算机视觉研究的早期,采用的是别的方式:即“自上而下的推理”模式——比如一本书看起来是“这样”,那么就要注意与“这个”类似的模式。而一辆车看起来是“这样”,动起来又是“这样”。

在某些受控的情况下,确实能够对少数几个物体完成这一过程,但如果要描述身边的每个物体,包括所有的角度、光照变化、运动和其他上百个要素,即便是咿呀学语的婴儿级别的识别,也需要难以想象的庞大数据。

而如果不用“自上而下”,改用“自下而上”的办法,即去模拟大脑中的过程,则看上去前景更加美好:计算机可以在多张图中,对一张图片进行一系列的转换,从而找到物体的边缘,发现图片上的物体、角度和运动。就像人类的大脑一样,通过给计算机观看各种图形,计算机会使用大量的计算和统计,试着把“看到的”形状与之前训练中识别的相匹配。

科学家正在研究的,是让智能手机和其他的设备能够理解、并迅速识别出处在摄像头视场里的物体。如上图,街景中的物体都被打上了用于描述物体的文本标签,而完成这一过程的处理器要比传统手机处理器快上120倍。

随着近几年并行计算领域的进步,相关的屏障逐渐被移除。目前出现了关于模仿类似大脑机能研究和应用的爆发性增长。模式识别的过程正在获得数量级的加速,我们每天都在取得更多的进步。

复制大脑剩余部分——让计算机“去理解”

当然,光是“识别”“描述”是不够的。一台系统能够识别苹果,包括在任何情况、任何角度、任何运动状态,甚至是否被咬等等等等。但它仍然无法识别一个橘子。并且它甚至都不能告诉人们:啥是苹果?是否可以吃?尺寸如何?或者具体的用途。

上文曾经谈过,没有软件,硬件的发挥非常受限。但现在的问题是,即便是有了优秀的软硬件,没有出色的操作系统,也“然并卵”。

对于人们来说,大脑的剩余部分由这些组成,包括长短期记忆、其他感官的输入、注意力和认知力、从世界中万亿级别的交互中收获的十亿计知识,这些知识将通过我们很难理解的方式,被写入互联的神经。而要复制它,比起我们遇到过的任何事情都要更加复杂。

计算机视觉的现状和未来

这一点就是计算机科学和更加普遍的人工智能领域的前沿。计算机科学家、工程师、心理学家、神经学家和哲学家正在通力合作,形成关于意识运作的概念,但还是远远达不到模拟它的地步。

不过,这也并非意味着目前我们处于死胡同。计算机视觉的未来,将会集成强大而专门的系统,让人们更加广泛集中在难以解决的概念上:环境、注意力和意图。

因此,即便是在如此早期的阶段,计算机视觉仍然发挥了很大的作用。在摄像头领域,是面部和笑容识别;在自驾车领域 ,则是读取交通信号和注意行人;工厂里的机器人会通过它来检测问题所在、并绕过周围的人类公认。虽然说要实现“和人类一样去看”仍然有很长的一段路,但是如果能够实现的话,那会是非常美妙的未来。

人工智能 视觉 识别
上一篇:防火墙做不到的事,人工智能可以吗? 下一篇:人工智能怎么为自己设定目标?
评论
取消
暂无评论,快去成为第一个评论的人吧

更多资讯推荐

11个主流AI聊天机器人平台,你绝不能错过

人工智能聊天机器人掀起了一场用户体验革命。只要用户需要,机器人就能提供有用的信息。一些企业应用AI聊天机器人为客户提供积极有益的帮助,企业也因此得到了长足的发展。

读芯术 ·  11h前
5G自动驾驶什么样?韩国测试得出这样的结果

自动驾驶与5G的产业发展备受关注,而两者结合会有什么样的效果,韩国企业近日进行了一番探索。韩媒报道称,10月10日,LG U+自动驾驶汽车在首尔麻谷LG科学园一带的普通公路上进行了测试。

佚名 ·  12h前
全球十大AI训练芯片大盘点

AI芯片哪家强?现在,有直接的对比与参考了。英国一名资深芯片工程师James W. Hanlon,盘点了当前十大AI训练芯片。

乾明 ·  13h前
模型仅1MB,更轻量的人脸检测模型开源,效果不弱于主流算法

AI模型越来越小,需要的算力也也来越弱,但精度依旧有保障。最新代表,是一个刚在GitHub上开源的中文项目:一款超轻量级通用人脸检测模型。

乾明 ·  13h前
人工智能遇冷,自动驾驶受阻?

2016到2019,人工智能经历了梦幻般的三年,但人工智能的历史规律告诉我们:高潮过后可能会引来新的一波沉寂,人工智能助推下的自动驾驶也会受到波及。

佚名 ·  17h前
非监督学习最强攻略

本次主要讲解的内容是机器学习里的非监督学习经典原理与算法,非监督,也就是没有target(标签)的算法模型。

SAMshare ·  18h前
PyTorch终于能用上谷歌云TPU,推理性能提升4倍,该如何薅羊毛?

Facebook在PyTorch开发者大会上正式推出了PyTorch 1.3,并宣布了对谷歌云TPU的全面支持,而且还可以在Colab中调用云TPU。

晓查 ·  18h前
500亿参数,支持103种语言:谷歌推出「全球文字翻译」模型

由于缺乏平行数据,小语种的翻译一直是一大难题。来自谷歌的研究者提出了一种能够翻译 103 种语言的大规模多语言神经机器翻译模型,在数据丰富和匮乏的语种翻译中都实现了显著的性能提升。

机器之心 ·  2天前
Copyright©2005-2019 51CTO.COM 版权所有 未经许可 请勿转载