为什么深度学习没有局部最小值?

作者: 陈洁燕/译 2017-07-03 10:52:20

这篇文章主要回答量化问题。量化问题主要包括以下情况:

“据我所知,每个方向0的衍生机率很低。除此之外,还有其他原因吗?”

理论上,这个问题是可以验证的,而且这几十年间也有很多研究人员一直在致力于验证它。

首先,我想指出无论如何这个问题已在实践中得到了验证。这个观点最初由LeCun在他早期的著作中提出。现在David G. Stork, Peter E. Hart, 和 Richard O. Duda合著的“小红书”《图形分类》中有讨论。

20年前旋转玻璃研究中这个问题已在浓缩物质物理学中被大量解释。

最基础的项目由Parisi通过一个类似的非现实形式开发研究:

以静态的观点表现TAP的自由能量

后来采用了无规矩阵理论实证的正确可行的方法论证。LeCun所谈及的结果如下:

高维景观的关键点

我来总结一下Parisi的方法:

他研究随机哈密尔敦函数的其中一种——平均场自旋玻璃,被称作P状旋转的球状旋转玻璃。他发现:

1.得出TAP自由能量的分析表达式(当T>0时)TAP(索利斯安德森帕尔默)理论是研究旋转玻璃的一般方法,而且能应用于RBMs(可参阅《使用物理化学提高RMBs》)

2.可计算构形的平均信息量,除此之外,还有复杂性度量——通过统计学理论的方法计算关键点的数量。

3.为了在能量水平E时计算关键点数量,可延伸这一结论到T=0的能量景观。Paris得出的普适结果是所有本地最小化能量“集中(静态上)”在轻微高于地球表面的一小部分地带中。

一直未解释的是为什么在研究旋转玻璃中这是一个重要问题以及为什么P形球状旋转玻璃是研究目标,除了它是一个已被论证的模型以及有大量深度学习研究人员可得出的硬性设想。

此外,在深度学习研究中,T=0能量观景与T>0能量观景之间没有区别,虽然在传统的方法中如RBMs和VAEs是假设T=1。

最近有更多的结论可尝试直接应用于深度学习研究中:

不存在极少的局部最小值的深度学习

这一结论进一步假设SGD解决者实际中无法分辨鞍点与局部最小值的区别,因为Hessian理论的假设是很有问题的。LeCun最近的数值计算研究证实了这一点。他的研究显示Hessian理论假设有很多0值。

偏向性梯度下降至谷底

我个人认为这一结论还不完整,而且对于物理化学家,例如沃利尼斯*彼特来说,这方面的问题还有大量研究工作。这个议题在被称作“亚当的肋骨”现象以及关联的在真实结构性玻璃出现的平均信息量危机的极冷玻璃理论中一个让人非常迷惑的现象。这个题目很深奥,但足以说明P旋转球状旋转玻璃非常有趣的原因是这是一个简单的旋转玻璃模型,具有大量的真实能量观景。它表现了平均信息量危机。事实上,我设想深网也将表现出平均信息量危机,例如:当深网被过度训练后他们会呈现出很多假设性的平均信息量。

由于过度训练而引发的平均信息量危机将呈现为高耸的山峰,因为它已偏离假设性平均信息量,类似于LeCun在他的关于平均信息量SGD论著中提及的。而且这一现象最近在RBMs被观察到。

[1612.01.1717] 具有二元突触的限制性波尔兹曼机器的非监控特征的统计力学

这些漏斗状的观景可从蛋白质折叠中观察到。

那么,为什么深度学习可行呢?

我在UC 伯克利大学的2016夏季MDDS 讨论中谈及了这些问题 (可点击 阅读原文 查看视频)。

深度学习 人工智能
上一篇:机器学习算法在自动驾驶领域的应用大盘点 下一篇:MIT 提出Network Dissection框架,全自动窥探神经网络训练的黑箱
评论
取消
暂无评论,快去成为第一个评论的人吧

更多资讯推荐

5G风头正盛 人工智能要被“冷落”了?

2018年,5G的热度开始迅速提升。当年开始,我国展开了5G基站建设,并在全国十多个城市开始进行5G测试和试运营。到了2019年,随着各国纷纷宣布开启5G商用,5G的热度再次攀升,成为了通信、科技领域当之无愧的“热点王”。相比之下,人工智能似乎都要稍逊一筹。

佚名 ·  1天前
破解机器学习的误区——常见机器学习神话究竟从何而来?

Forrester Research最近发布了一份名为“ 粉碎机器学习的七个神话”的报告。在其中,作者警告说:“不幸的是,一些对机器学习项目做出重要决策的企业领导者,普遍存在机器学习的误解。”

CDA数据分析师 ·  1天前
清华本科生开发强化学习平台「天授」:千行代码实现,刚刚开源

就在最近,一个简洁、轻巧、快速的深度强化学习平台,完全基于Pytorch,在Github上开源。

贾浩楠 ·  1天前
脑机接口利器,从脑波到文本,只需要一个机器翻译模型

加州大学旧金山分校的Joseph Makin 等人在 Nature Neuroscience上发表了一篇论文,标题为《利用 encoder-decoder 框架,将大脑皮质活动翻译为文本》(Machine translation of cortical activity to text with an encoder–decoder framework)。

蒋宝尚 ·  1天前
在工厂中实施工业物联网技术的5个理由

虽然有许多原因,但以下五个因素正在推动更多公司在其工厂中实施工业物联网解决方案。

Mark Cox ·  2天前
我们对人工智能的误解有多深

人工智能技术具有正、反两方面的作用,在造福于人类的同时,也存在各种风险。理论上可能存在以下四种风险。

陈小平 ·  2天前
令人兴奋的 2020 年人工智能和机器学习趋势

在本文中,我们将讨论几个顶级的人工智能和机器学习趋势,将塑造新年:2020。 我们还将介绍面部识别技术及其在2020年的应用。

飞羽译 ·  2天前
体验中国自主知识产权天元深度学习引擎与TensorFlow,PyTorch的对比

深度学习驱动之下最早创业的中国AI独角兽旷视,宣布开源自研深度学习框架MegEngine(Brain++核心组件之一),中文名天元——取自围棋棋盘中心点的名称。

尹成 ·  2天前
Copyright©2005-2020 51CTO.COM 版权所有 未经许可 请勿转载