为什么深度学习没有局部最小值?

作者: 陈洁燕/译 2017-07-03 10:52:20

这篇文章主要回答量化问题。量化问题主要包括以下情况:

“据我所知,每个方向0的衍生机率很低。除此之外,还有其他原因吗?”

理论上,这个问题是可以验证的,而且这几十年间也有很多研究人员一直在致力于验证它。

首先,我想指出无论如何这个问题已在实践中得到了验证。这个观点最初由LeCun在他早期的著作中提出。现在David G. Stork, Peter E. Hart, 和 Richard O. Duda合著的“小红书”《图形分类》中有讨论。

20年前旋转玻璃研究中这个问题已在浓缩物质物理学中被大量解释。

最基础的项目由Parisi通过一个类似的非现实形式开发研究:

以静态的观点表现TAP的自由能量

后来采用了无规矩阵理论实证的正确可行的方法论证。LeCun所谈及的结果如下:

高维景观的关键点

我来总结一下Parisi的方法:

他研究随机哈密尔敦函数的其中一种——平均场自旋玻璃,被称作P状旋转的球状旋转玻璃。他发现:

1.得出TAP自由能量的分析表达式(当T>0时)TAP(索利斯安德森帕尔默)理论是研究旋转玻璃的一般方法,而且能应用于RBMs(可参阅《使用物理化学提高RMBs》)

2.可计算构形的平均信息量,除此之外,还有复杂性度量——通过统计学理论的方法计算关键点的数量。

3.为了在能量水平E时计算关键点数量,可延伸这一结论到T=0的能量景观。Paris得出的普适结果是所有本地最小化能量“集中(静态上)”在轻微高于地球表面的一小部分地带中。

一直未解释的是为什么在研究旋转玻璃中这是一个重要问题以及为什么P形球状旋转玻璃是研究目标,除了它是一个已被论证的模型以及有大量深度学习研究人员可得出的硬性设想。

此外,在深度学习研究中,T=0能量观景与T>0能量观景之间没有区别,虽然在传统的方法中如RBMs和VAEs是假设T=1。

最近有更多的结论可尝试直接应用于深度学习研究中:

不存在极少的局部最小值的深度学习

这一结论进一步假设SGD解决者实际中无法分辨鞍点与局部最小值的区别,因为Hessian理论的假设是很有问题的。LeCun最近的数值计算研究证实了这一点。他的研究显示Hessian理论假设有很多0值。

偏向性梯度下降至谷底

我个人认为这一结论还不完整,而且对于物理化学家,例如沃利尼斯*彼特来说,这方面的问题还有大量研究工作。这个议题在被称作“亚当的肋骨”现象以及关联的在真实结构性玻璃出现的平均信息量危机的极冷玻璃理论中一个让人非常迷惑的现象。这个题目很深奥,但足以说明P旋转球状旋转玻璃非常有趣的原因是这是一个简单的旋转玻璃模型,具有大量的真实能量观景。它表现了平均信息量危机。事实上,我设想深网也将表现出平均信息量危机,例如:当深网被过度训练后他们会呈现出很多假设性的平均信息量。

由于过度训练而引发的平均信息量危机将呈现为高耸的山峰,因为它已偏离假设性平均信息量,类似于LeCun在他的关于平均信息量SGD论著中提及的。而且这一现象最近在RBMs被观察到。

[1612.01.1717] 具有二元突触的限制性波尔兹曼机器的非监控特征的统计力学

这些漏斗状的观景可从蛋白质折叠中观察到。

那么,为什么深度学习可行呢?

我在UC 伯克利大学的2016夏季MDDS 讨论中谈及了这些问题 (可点击 阅读原文 查看视频)。

深度学习 人工智能
上一篇:人工智能的三个阶段:我们正从统计学习走向语境顺应 下一篇:MIT 提出Network Dissection框架,全自动窥探神经网络训练的黑箱
评论
取消
暂无评论,快去成为第一个评论的人吧

更多资讯推荐

500亿参数,支持103种语言:谷歌推出「全球文字翻译」模型

由于缺乏平行数据,小语种的翻译一直是一大难题。来自谷歌的研究者提出了一种能够翻译 103 种语言的大规模多语言神经机器翻译模型,在数据丰富和匮乏的语种翻译中都实现了显著的性能提升。

机器之心 ·  2天前
对于人工智能的恐惧及其5个解决方法

实施人工智能技术的IT领导人可能会感到一些恐惧,这有着充分的理由。人工智能在拥有数十年发展和应用历史的同时却有着奇怪的定位,但对于许多人来说,人工智能仍然是一种未来主义的感觉。

Kevin Casey ·  2天前
机器学习免费跑分神器:集成各大数据集,连接GitHub就能用

搞机器学习的小伙伴们,免不了要在各种数据集上,给AI模型跑分。现在,Papers with Code (那个以论文搜代码的神器) 团队,推出了自动跑分服务,名叫sotabench,以跑遍所有开源模型为己任。

栗子 鱼羊 ·  2天前
用AI实现动画角色的姿势迁移,Adobe等提出新型「木偶动画」

近日,Adobe 和康奈尔大学的研究人员提出一种基于学习的动画制作方法——基于卡通角色的少量图像样本就可生成新动画。

机器之心 ·  2天前
AI新贵登上胡润百富榜:“CV四小龙”三家创始人上榜

AI造福人类,也造富了一些创业者。最近公布的2019胡润百富榜就是窥探老板们身价的好机会。

郭一璞 ·  2天前
大数据为什么不够聪明?机器要如何走向强人工智能

大数据为什么不够聪明?比概率语言更强大的思考工具是什么?科幻电影中的强人工智能到底怎样实现?如何让智能机器像人一样思考?搞清楚因果关系才能拨云见日。

明日情报 ·  2天前
2019 AIIA开发者大会新闻发布会在京召开

10月10日,2019 AIIA人工智能开发者大会新闻发布会在北京成功召开。据悉,2019 AIIA人工智能开发者大会暨第四届中国(杭州)人工智能产业发展论坛将于11月1日-2日在杭州召开。

佚名 ·  3天前
人工智能统计调查:86%的消费者更喜欢人工客服

美国消费者越来越不愿意与聊天机器人聊天,人们对人工智能作为关键业务组成部分的期望越来越高,由于部署这项新技术导致员工技能差距越来越大。

佚名 ·  3天前
Copyright©2005-2019 51CTO.COM 版权所有 未经许可 请勿转载