Epoch不仅过时,而且有害?Reddit机器学习板块展开讨论

作者: 梦晨 2021-05-07 15:36:00

  

本文经AI新媒体量子位(公众号ID:QbitAI)授权转载,转载请联系出处。

有一天,一个调参侠在训练一个深度学习模型,要用到的两个数据集损失函数不同,数据集的大小还不是固定的,每天都在增加。

他有点发愁,这该怎么设置Epoch数呢?

在纠结的过程中,他突然想到:干嘛非得定一个Epoch数?只要对每个Batch进行独立同分布抽样 (IID Sampling)不就得了。

为了验证这个想法,调参侠去看了很多论文。发现越来越多的人介绍他们的训练方法时,只说进行了多少个Iteration,而抛弃了Epoch。

他想到,Epoch暗示并强调了数据集是有限的,这不仅麻烦,还有潜在的“危害”。把Epoch去掉,让循环嵌套的层数少一层总是好的。

于是他在Reddit发起了讨论:Epoch是不是过时了,甚至还有危害?

Epoch不仅过时,而且有害?Reddit机器学习板块展开讨论

Epoch多余吗?

有人对这个观点表示赞同:

挺有道理,当数据集大小有很大差距,Batch大小相同时,设置一样的Epoch数,岂不是大数据集参数更新的次数多,小数据集参数更新次数少了,这似乎不对劲。

Epoch最大的好处是确保每个样本被定期使用。当使用IID抽样时,你只要能想办法确保所有样本被同样频繁地使用就好了。

但调参侠觉得让每个样本被定期使用就是他怀疑的点,IID抽样已经确保分布相同了,再让他们同频率被使用就是一种误导。

Epoch不仅过时,而且有害?Reddit机器学习板块展开讨论

反对者认为:

不能因为你觉得车没开在路的正中间就放开方向盘不管了,虽然大撒把不会改变你正好在路中间的概率,但它增加了方差

Epoch不仅过时,而且有害?Reddit机器学习板块展开讨论

调参侠最后总结道,这个争议有点像统计学里的“频率派 VS 贝叶斯派”,即认为数据集到底应该是确定的还是不确定的。

该怎么比较模型?

调参侠还注意到,有人用Batch Loss做损失曲线。他认为这比Epoch Loss更有参考价值。

Epoch不仅过时,而且有害?Reddit机器学习板块展开讨论

反对者觉得,你这个方式是挺好的,但Epoch依然有用。

因为即使在相同的硬件上,不同模型的算法效率不同也会带来巨大差异。

像各种Transformer和CNN这种底层代码实现都差不多,但是别的模型就可能有很不一样。比如我们自己的CUDA LSTM实现,至少和CudnnLSTM一样快,比原版TensorFlow实现快4倍左右。

最后,有个网友以CV模型为例对这个话题做出精彩总结,列了4种损失可视化方式,并介绍了什么情况该用哪个。

Epoch不仅过时,而且有害?Reddit机器学习板块展开讨论

Loss/Epoch告诉你一个模型要观察同一个图像多少次才能理解它。

Loss/Iteration告诉你需要多少次参数更新。当比较优化器时这很有用,可以帮助你加快训练速度或达到更高的精度。

Loss/Total Image Seen告诉你算法看到了多少图像时的损失。适合比较两种算法使用数据的效率。

如果你的算法在50万张时达到70%、100万张时达到75%,这可能比50万张时达到50%,100万张时达到80%的还要好。

另外,它还消除了Batch Size的影响。这允许在不同GPU上训练的具有不同Batch Size的模型之间进行公平的比较。

Loss/Time也很重要,因为如果一个新模型减少了100个Epoch,但每个Iteration都慢100倍,我就不会选择这个模型。

虽然Loss/Time关系到硬件的具体表现,不够精准,我不会把这个写到论文里。但在自己的机器上这是很好的评估模型的参数。

使用数据增强时呢?

有网友提出,数据增强 (Data Augmentation)时Epoch也有点多余。因为数据集太小,人为给每个样本添加很多只有微小差距的版本,没必要让他们被同频率使用。

Epoch不仅过时,而且有害?Reddit机器学习板块展开讨论

反对者认为,数据增强作为正则化的一种形式减少了过拟合,但你引入的实际信息在训练模型时仍然局限于原始数据集。如果你的原始数据集足够小,Epoch表示你向模型展示了整个训练集,仍然是有意义的。

有人问道:

你是想表达“纪元(Epoch)”的纪元结束了吗?

调参侠:

对,现在是“时代(Era)”的时代。

Epoch不仅过时,而且有害?Reddit机器学习板块展开讨论

△无尽随机增强的首字母缩写ERA意为“时代”

机器学习 人工智能 计算机
上一篇:自动驾驶出租车竞争激烈,国内百度占得先机! 下一篇:人工智能寒冬又到?美国教授arxiv发文批判AI,遭Reddit网友狂喷
评论
取消
暂无评论,快去成为第一个评论的人吧

更多资讯推荐

面部识别的利与弊:是福还是祸?

虽然现代技术使面部识别更加精确和安全,但与面部识别隐私问题和监控有关的担忧也在增加。因此,让我们在这篇文章中探讨一下这该技术的利与弊。

Naveen Joshi ·  2021-06-01 16:36:22
人工智能和5G如何结合以实现物联网收入最大化

网络系统通过信令和使用软件以及分析来检测和分类设备非常棘手,并且对有限且日益紧张的网络资源提出了巨大的需求。然而,解决这些问题有一个主要解决方案:采用人工智能、自动化和5G技术。

Jordi Castellvi ·  2021-06-01 13:49:15
MIT团队最新研究,仅靠LiDAR和2D地图实现端到端自动驾驶

最近, MIT 计算机科学与人工智能实验室(CSAIL)团队成功展示了一种基于机器学习的自动驾驶系统,该端到端框架仅使用 LiDAR获取的原始 3D 点云数据和类似于手机上的低分辨率 GPS 地图就能进行自主导航,并且大大提升了鲁棒性。

文龙 ·  2021-06-01 12:47:51
自然语言处理(NLP)的历史及其发展方向

自然语言处理的历史是一个充满曲折的故事。它从徒劳的研究开始,经过多年卓有成效的工作,最后结束于一个我们仍在试图找出该领域极限的时代。今天,让我们来一起探索这一AI科学分支的发展。

佚名 ·  2021-06-01 12:46:26
是福还是祸?人脸识别技术的利与弊

面部识别并不是一项全新的技术,但人工智能和机器学习不断使面部识别变得更好。苹果通过引入具有 3D 扫描功能的面部生物识别系统和 iPhone 的 Face ID,提高了面部识别的标准。

Naveen Joshi ·  2021-06-01 11:11:01
人工智能能否使机器具有流体智力?

麻省理工学院和奥地利研究人员为灵活的人工智能创造了“液体”机器学习。

千家网 ·  2021-06-01 10:38:55
高真实感、全局一致、外观精细,面向模糊目标的NeRF方案出炉

自 NeRF 被提出后,有多项研究对其加以改进。在本篇论文中,上海科技大学的研究者提出了首个将显式不透明监督和卷积机制结合到神经辐射场框架中以实现高质量外观的方案。

Haimin Luo等 ·  2021-06-01 09:57:39
大脑模拟NLP,高德纳奖得主:神经元集合演算用于句子解析

一个简单的大脑模型为人工智能研究提供了新的方向。世界顶尖计算机科学理论学家、哥德尔奖和高德纳奖获得者、哥伦比亚大学计算机科学教授 Christos Papadimitriou 关于「大脑中单词表征」的演讲。

Ben Dickson ·  2021-06-01 09:39:24
Copyright©2005-2021 51CTO.COM 版权所有 未经许可 请勿转载