ResNet假说被推翻?Reddit小哥:这么多年都没人搞懂Ta的原理

作者: 佚名 2021-10-18 17:50:32

  

2015年,一个里程碑的神经网络模型ResNet发布。因为在过深的网络训练会产生梯度消失和梯度爆炸,并且训练过深的网络中会出现准确率下降的问题,而RestNet 采用残差连接很容易让研究人员训练出上百层甚至上千层的网络。

ResNet假说被推翻?Reddit小哥:这么多年都没人搞懂Ta的原理

在ResNet论文观察到的退化问题(degradation problem),即34层的网络在整个训练过程中比18层的网络具有更高的训练误差,但18层网络的解空间显然是34层网络的子空间。

ResNet假说被推翻?Reddit小哥:这么多年都没人搞懂Ta的原理

一个很自然的假设是这个问题和RNN 网络中观察到的梯度消失问题(Vanishing Gradient Problem)相同,也是长短时记忆网络(Long-Short Term Memory Networks, LSTM)主要改进的问题。

但论文的作者Kaiming 大神当时并不这么认为,他在论文中写道:

ResNet假说被推翻?Reddit小哥:这么多年都没人搞懂Ta的原理

「我们认为这种优化困难不太可能是由梯度消失引起的,因为这些普通神经网络使用 BN 进行训练,确保前向传播的信号具有非零方差可以缓解这个问题。我们还验证了反向传播的梯度,结果可以看到表现出 BN 的结果也很正常。因此,前向或后向的信号都不会消失。事实上,34 层的普通网络仍然能够达到有竞争力的精度,这表明这个解决方法在一定程度上是有效的。我们推测普通神经网络的收敛速度可能呈指数级低,这会影响训练误差的减少。未来将研究这种优化困难的原因。」

这个论点也被网友称为「ResNet 假说」,而关于ResNet 假说的正确性最近又在Reddit 上引起了热议。

ResNet假说被推翻?Reddit小哥:这么多年都没人搞懂Ta的原理

提问者认为,最近的许多论文和教程似乎都假设 ResNet 假设是错误的,论文的作者大多添加了跳跃连接以「改进梯度传播流」,并引用了原始的 ResNet 论文来支持这一主张。虽然添加跳跃连接会改善梯度流是很有道理的,但首先是什么导致了退化问题依然没有答案。

跳过连接通过改进梯度流来解决退化问题的想法似乎与 ResNet 假设明显矛盾;那么这个想法是从哪里来的呢?ResNet 假说是否被证伪了?

ResNet假说被推翻?Reddit小哥:这么多年都没人搞懂Ta的原理

有网友从技术角度认为并没有完整的分析,关于 ResNets 的工作原理主要存在三种相互竞争的假说,并且给出了相关的论文:

1、进行了迭代细化(iterative refinement)

ResNet假说被推翻?Reddit小哥:这么多年都没人搞懂Ta的原理

这篇论文从分析和实证两方面研究了resnet。研究人员通过显示残差连接自然地鼓励残差块的特征在从一个块到下一个块的过程中沿着损失的负梯度移动,从而在resnet中形式化了迭代细化的概念。

此外,实证分析表明,resnet能够进行表征学习和迭代优化。通常,Resnet块倾向于将表示学习行为集中在前几层,而更高层执行特征的迭代细化。

最后,研究人员观察到共享残差层会导致表示爆炸和反直觉的过拟合,文中提出了一个简单的策略可以帮助缓解这个问题。

2、指数级的集成模型

ResNet假说被推翻?Reddit小哥:这么多年都没人搞懂Ta的原理

这项工作中对残差网络提出了一种新颖的解释:这个模型可以被视为许多不同长度路径的模型的集成。此外,残差网络似乎通过在训练期间仅利用短路径来实现非常深的网络。为了支持这一观察,研究人员将残差网络重写为一个显式的路径集合。

研究结果表明,这些路径表现出类似整体的行为并不强烈地相互依赖。并且大多数路径都比人们预期的要短,在训练期间也只需要短路径,因为较长的路径不会产生任何梯度。

例如,具有 110 层的残差网络中的大部分梯度来自仅 10-34 层深的路径。这篇论文的结果认为Resnet 能够训练非常深的网络的关键特征之一是残差网络通过引入可以在非常深的网络范围内携带梯度的短路径来避免梯度消失问题。

3、原始论文中提到的,梯度传播过程被改进了

答主也看过一些神经切线内核(neural tangent kernel stuff)的东西,但他仍然不明白其中的原理,并且他也认为没有人真正坐下来试图弄清楚真正的解释是什么。

不过他有一个想法,可以通过考虑具有重叠跳过连接(overlapping skip connections)的网络来测试集成理论(ensemble theory),这些网络具有集成论文中定义的最大多样性(maximal multiplicity)。并且可以改变跳过连接长度的同时保持多重性不变,但还没有人这样做过任何与此有关的实验。

还可以尝试的另一件事是使 Resnets 的梯度流保证完美而无需跳过连接的情况,但是当用户添加残差连接时,大多数此类事情都无法达到完美的情况,因此必须考虑新的方式来达成完美梯度传播。

另一个高赞网友表示,捷径连接(shortcut connections)改善了损失情况,能够使优化变得更加容易,有很多研究结果都支持这一点。

The Shattered Gradients Problem: If resnets are the answer, then what is the question? (ICML 2017) 表明 ResNet 具有更稳定的梯度。

Visualizing the Loss Landscape of Neural Nets (NeurIPS 2018) 再次表明 ResNets 具有更平滑的损失表面。

并且也有研究表示,可以不需要捷径来学习有效的表示,但优化会更难。例如,Fixup Initialization: Residual Learning without Normalization (ICLR 2019) 表明,如果你对初始化结果进行多次调整,那你可以在没有残差连接的情况下训练 ResNets 以获得不错的结果。

RepVGG:Making VGG-style ConvNets Great Again (CVPR 2021) 表明可以在训练后移除捷径并仍然拥有性能不错的网络。

但这仍然符合 ResNet 的原始想法:将每个块初始化为一个identify function,因此最初看起来好像参数实际上并不存在,也对网络训练没有产生任何影响,然后逐渐让块的效果发挥作用。

也有网友认为标题的用词实在不准确,因为debunked 相当于直接给Resnet判定为错误,提问者也表示自己确实是标题党了,但标题无法更改了。

ResNet假说被推翻?Reddit小哥:这么多年都没人搞懂Ta的原理
神经网络 AI 算法
上一篇:假3D场景逼真到火爆外网!超1亿像素无死角,被赞AI渲染新高度 下一篇:初创企业将人工智能与芯片上病人相结合 以加快药物开发
评论
取消
暂无评论,快去成为第一个评论的人吧

更多资讯推荐

三分钟回顾,2021年11月自动驾驶行业全动态一览

缺芯荒加疫情影响,今年以来自动驾驶行业发展被迫放缓,在此背景下,我们不妨不妨从融资、动态两方面,一起来看看复苏后的自动驾驶是如何极速狂飙的吧!

智能制造网 ·  1天前
2021大盘点,这十家AI初创公司有点“料”!

今年的AI初创公司榜单中,涵盖了用于构建AI语音助手的无代码网络平台,用于组织提升和员工技能再培训的AI人才智能平台,以及AI驱动的地理空间分析平台等等。

至顶网 ·  1天前
人工智能:发现纳米尺度的细胞结构

人之所以会生病,是因为外界的致病因素作用于细胞,当积累到一定数量,就会造成细胞损伤,出现功能、代谢、形态结构紊乱等问题。

科幻网 ·  2天前
零售趋势:从人工智能到优惠券代码

随着机器学习和人工智能 (AI) 的出现,公司开展业务的方式发生了很大变化。大流行封锁的条件进一步推动了这种变化。

佚名 ·  3天前
时光旅行成真?人类或可通过虫洞抵达「时空边缘」,量子AI会让机器产生意识

最近,一位著名的理论计算机科学家最近发布了一篇惊人的物理学预印本论文,为「人类是否可以使用虫洞穿越宇宙」的激烈话题又添了一把火。

佚名 ·  3天前
人工智能在建筑中的好处

建筑中的人工智能有可能帮助参与者在整个项目生命周期中实现价值,包括:设计、投标和融资;采购和施工;运营和资产管理;以及,商业模式转型。建筑中的人工智能帮助整个行业克服一些最严峻的挑战,包括安全问题、劳动力短缺以及成本和进度超支。

杭州埃欧哲 ·  4天前
人工智能正在学习管理人类:未来会统治人类世界吗?

人类自以为伟大,但是单个人类个体是十分弱小的。人类创造了灿烂的文明,但是人类文明的本质,是群体智慧和积累,人类世世代代掌握的知识在不断传承,每一个新生的人类个体,都要通过学习前人的经验,来成为社会人。

紫侠 ·  4天前
2022年人工智能发展创新的十大趋势

创新是永无止境的,像人工智能(AI)这样的技术正在悄悄改变世界。人工智能已经成为趋势,影响着每一个行业。2022年,人工智能的创新又会有哪些突破,发展又会有哪些方向?国外知名咨询机构V-Soft Consulting预测2022年人工智能创新发展的10大方向。

长生不老之路 ·  4天前
Copyright©2005-2021 51CTO.COM 版权所有 未经许可 请勿转载