为什么深度学习没有局部最小值?

作者: 陈洁燕/译 2017-07-03 10:52:20

这篇文章主要回答量化问题。量化问题主要包括以下情况:

“据我所知,每个方向0的衍生机率很低。除此之外,还有其他原因吗?”

理论上,这个问题是可以验证的,而且这几十年间也有很多研究人员一直在致力于验证它。

首先,我想指出无论如何这个问题已在实践中得到了验证。这个观点最初由LeCun在他早期的著作中提出。现在David G. Stork, Peter E. Hart, 和 Richard O. Duda合著的“小红书”《图形分类》中有讨论。

20年前旋转玻璃研究中这个问题已在浓缩物质物理学中被大量解释。

最基础的项目由Parisi通过一个类似的非现实形式开发研究:

以静态的观点表现TAP的自由能量

后来采用了无规矩阵理论实证的正确可行的方法论证。LeCun所谈及的结果如下:

高维景观的关键点

我来总结一下Parisi的方法:

他研究随机哈密尔敦函数的其中一种——平均场自旋玻璃,被称作P状旋转的球状旋转玻璃。他发现:

1.得出TAP自由能量的分析表达式(当T>0时)TAP(索利斯安德森帕尔默)理论是研究旋转玻璃的一般方法,而且能应用于RBMs(可参阅《使用物理化学提高RMBs》)

2.可计算构形的平均信息量,除此之外,还有复杂性度量——通过统计学理论的方法计算关键点的数量。

3.为了在能量水平E时计算关键点数量,可延伸这一结论到T=0的能量景观。Paris得出的普适结果是所有本地最小化能量“集中(静态上)”在轻微高于地球表面的一小部分地带中。

一直未解释的是为什么在研究旋转玻璃中这是一个重要问题以及为什么P形球状旋转玻璃是研究目标,除了它是一个已被论证的模型以及有大量深度学习研究人员可得出的硬性设想。

此外,在深度学习研究中,T=0能量观景与T>0能量观景之间没有区别,虽然在传统的方法中如RBMs和VAEs是假设T=1。

最近有更多的结论可尝试直接应用于深度学习研究中:

不存在极少的局部最小值的深度学习

这一结论进一步假设SGD解决者实际中无法分辨鞍点与局部最小值的区别,因为Hessian理论的假设是很有问题的。LeCun最近的数值计算研究证实了这一点。他的研究显示Hessian理论假设有很多0值。

偏向性梯度下降至谷底

我个人认为这一结论还不完整,而且对于物理化学家,例如沃利尼斯*彼特来说,这方面的问题还有大量研究工作。这个议题在被称作“亚当的肋骨”现象以及关联的在真实结构性玻璃出现的平均信息量危机的极冷玻璃理论中一个让人非常迷惑的现象。这个题目很深奥,但足以说明P旋转球状旋转玻璃非常有趣的原因是这是一个简单的旋转玻璃模型,具有大量的真实能量观景。它表现了平均信息量危机。事实上,我设想深网也将表现出平均信息量危机,例如:当深网被过度训练后他们会呈现出很多假设性的平均信息量。

由于过度训练而引发的平均信息量危机将呈现为高耸的山峰,因为它已偏离假设性平均信息量,类似于LeCun在他的关于平均信息量SGD论著中提及的。而且这一现象最近在RBMs被观察到。

[1612.01.1717] 具有二元突触的限制性波尔兹曼机器的非监控特征的统计力学

这些漏斗状的观景可从蛋白质折叠中观察到。

那么,为什么深度学习可行呢?

我在UC 伯克利大学的2016夏季MDDS 讨论中谈及了这些问题 (可点击 阅读原文 查看视频)。

深度学习 人工智能
上一篇:机器学习算法在自动驾驶领域的应用大盘点 下一篇:MIT 提出Network Dissection框架,全自动窥探神经网络训练的黑箱
评论
取消
暂无评论,快去成为第一个评论的人吧

更多资讯推荐

厨师与AI完美搭配,一起刺激你的味蕾

最近,索尼人工智能团队和韩国高丽大学联合开发了一种名为FlavorGraph的人工智能映射工具,该工具可以推荐互补的配料,帮助厨师们烹饪菜肴。

科技行者 ·  1天前
违规企业可面临营业额6%罚款 欧盟欲加强对人工智能技术监管

据外媒报道,欧盟委员会近日修订文件显示,如有企业违反欧盟规则使用被禁止的人工智能应用,可能会面临最多相当于其全球营业额6%的罚款,这一数字高于此前提议的4%。

贾桂鹏 ·  1天前
外卖小哥要失业了?美团募资650亿打造无人配送

从疫情开始之后,美团就已经在无人配送方面发力,根据美团的数据显示,目前美团的无人车配送服务已经覆盖了20多个小区,累计配送3.5万订单,自动驾驶里程近30万公里!

首席财经观察 ·  1天前
未来网络领域发生混合威胁的三大趋势

4月7日,欧洲反混合威胁卓越中心发布报告《未来的网络空间与混合威胁》,指出网络空间是发生混合威胁的领域之一,是网络行动和网络信息行动的促成者。

张明月 张岸佳 ·  1天前
MIT小哥联合谷歌训练7个多任务机器人,9600个任务成功率高达89%!

Google研究团队率先研发出了处理大规模任务的新型机器人,这些机器人竟然具有「学习世界」的能力。

新智元 ·  1天前
有了这支矢量神经风格画笔,无需GAN也可生成精美绘画

一种新的神经风格画笔能够生成矢量形式的绘画作品,在统一框架下支持油画、马克笔、水彩画等多种笔触,并可进一步风格化。

机器之心 ·  1天前
5G只比4G多1G?人工智能不答应

4月4日,论文共同作者之一、美国艺术与科学院院士、清华大学智能产业研究院院长张亚勤在接受科技日报记者采访时表示,通信行业正在走向5G,马上要走向6G,光是看视频快点、多发送点图片,那不是5G。什么才是真正的5G?为什么要在5G网络里“注入”人工智能?

科技日报 ·  1天前
通过AI和ML实现完全自动化的5种绝佳方法

在本文中,我们将讨论使用AI和ML的智能测试自动化技术如何帮助项目团队减少测试工作并提高测试覆盖率。

佚名 ·  1天前
Copyright©2005-2021 51CTO.COM 版权所有 未经许可 请勿转载