深度学习的难点:神经网络越深,优化问题越难

作者: 王二辉 2017-05-23 18:54:18

深度学习的核心问题就是一个非常难的优化问题。所以在神经网络引入后的几十年间,深度神经网络的优化问题的困难性是阻碍它们成为主流的一个重要因素。并导致了它们在20世纪90年代到21世纪初期间的衰落。不过现在已经基本解决了这个问题。在本篇博文中,我会探讨优化神经网络的“困难性”,以及理论上是怎么解释这个问题的。简而言之:神经网络变得越深,优化问题就会变得越难。

最简单的神经网络是单节点感知器,其优化问题是凸问题。凸优化问题的好处是所有的局部最小值也是全局最小值。存在各种各样的优化算法来解决凸优化问题,并且每隔几年就会发现更好的用于凸优化的多项式时间的算法。使用凸优化算法可以轻松地优化单个神经元的权重(参见下图)。下面让我们看看扩展一个单神经元后会发生什么。

图1 左图:一个凸函数。右图:一个非凸函数。凸函数比非凸函数更容易找到函数曲面的底部(来源:Reza Zadeh)

下一步自然就是在保持单层神经网络的情况下添加更多的神经元。对于单层n节点感知器的神经网络,如果存在边权重可以使得神经网络能正确地对训练集进行分类,那么这样的边权重是可以通过线性规划在多项式时间O(n)内找到。线性规划也是凸优化的一种特殊情况。这时一个问题应运而生:我们可以对更深的多层神经网络做出这种类似的保证么?不幸的是,不能。

为了可证明地解决两层或多层的一般神经网络的优化问题,需要的算法将会遇到某些计算机科学中***的未解问题。因此我们对机器学习研究人员尝试找到可证明地解决深度神经网络优化问题的算法不抱有太大的希望。因为这个优化问题是NP-hard问题,这意味着如果在多项式时间内可证明地解决这个问题,那么也可以解决那些几十年来尚未被解决的成千上万的问题。事实上,J. Stephen Judd在1988年就发现下面这个问题是NP-hard问题:

给定一个一般的神经网络和一组训练样本,是否存在一组网络边权重使得神经网络能为所有的训练样本产生正确的输出?

Judd的研究还表明:即使要求一个神经网络只为三分之二的训练样本产生正确的输出仍然是一个NP-hard问题。这意味着即使在最坏的情况下,近似训练一个神经网络在本质上还是困难的。1993年Blum和Rivest发现的事实更糟:即使一个只有两层和三个节点的简单神经网络的训练优化问题仍然是NP-hard问题。

理论上,深度学习与机器学习中的很多相对简单的模型(例如支持向量机和逻辑回归模型)的区别在于,这些简单模型可以数学证明地在多项式时间内完成模型优化。对于这些相对简单的模型,我们可以保证即使用运行时间比多项式时间更长的优化算法也都不能找到更好的模型。但是现有的深度神经网络的优化算法并不能提供这样的保证。在你训练完一个深度神经网络模型之后,你并不知道这个网络模型是否是在你的当前配置下能找到的***的一个模型。所以你会存有疑虑,如果继续训练模型的话是否可以得到一个更好的模型。

幸运的是我们在实践中可以非常高效地接近这些***结果:通过运行经典的梯度下降优化方法就可以得到足够好的局部最小值,从而可以使我们在许多常见问题上取得巨大进步,例如图像识别、语音识别和机器翻译。我们简单地忽略***结果,并在时间允许的情况下尽可能多地进行梯度下降迭代。

似乎传统的优化理论结果是残酷的,但我们可以通过工程方法和数学技巧来尽量规避这些问题,例如启发式方法、增加更多的机器和使用新的硬件(如GPU)。一些研究工作正在积极地探索为什么理论结果很残酷,但这些经典的优化算法却工作得这么好。

深度学习 人工智能
上一篇:专访DeepMap COO罗维:自动驾驶时代,创业公司如何在高精度地图领域突围? 下一篇:寻找CNN的弱点,小心MNIST中的“套路”
评论
取消
暂无评论,快去成为第一个评论的人吧

更多资讯推荐

MIT用19个神经元实现自动驾驶控制,灵感来自秀丽隐杆线虫

打造一个自动驾驶控制系统需要多少个神经元?MIT的科学家告诉你,最少只要19个!方法是向线虫这种初等生物学习。

晓查 ·  1天前
下一代人工智能的发展方向 (下)

之前的文章《下一代人工智能的发展方向 (上)》涵盖了AI内的三个新兴领域,(无监督学习、联合学习和Transformer)这些领域将在未来几年重新定义人工智能领域和社会。本文将再介绍另外三个:

蒙光伟 ·  1天前
下一代人工智能的发展方向 (上)

本文重点介绍了AI中的三个新兴领域,这些领域将在未来的几年中重新定义人工智能领域和社会。

蒙光伟 ·  1天前
百花齐放的自动驾驶,距离真正上路还有多远?

自动驾驶概念从诞生以来一直都是资本和技术创业者青睐的领域之一。新基建大背景下,伴随着5G商用的逐渐成熟,自动驾驶领域的热度自然是居高不下。

短颈鹿先生 ·  1天前
神经网络内部长啥样?

在这篇论文中,她将这些“黑匣子”一个个打开,对神经网络原理进行了详细的解释。

佚名 ·  1天前
8500万个工作岗位将被取代,工人如何保住“饭碗”?

2020年初,突如其来的疫情让不少工厂面临着“无人可用”的境地,而一些工厂因为机器人的大量使用,却没有受到很大影响,早早的复工复产,生产秩序稳定。

佚名 ·  1天前
人工智能和机器学习如何从物联网数据中提取关键见解

虽然所有这些小端点都很重要,但在物联网中更重要的是这些设备所生成的大量数据,以及通过分析可以从中获得的业务见解。

iothome ·  1天前
大数据、人工智能与法律职业的未来

法律是人类最古老的学科,人类历史上第一部成文法典《汉穆拉比法典》出现在3800多年以前。

法律出版社 ·  1天前
Copyright©2005-2020 51CTO.COM 版权所有 未经许可 请勿转载