谷歌Robotics研究科学家:记住5个问题,快速理解ML论文要点

作者: 大数据文摘 2021-02-19 11:15:47

编译:戚路北

编辑:陈彩娴

机器学习领域非常火热,新的模型、技术不断更新非常快,要求我们在平时的工作和学习过程中,会需要去阅读一些论文,跟踪某个领域的最新动态。

但读论文经常会有两种不适的感觉,一是容易遗忘,二是不能提纲挈领。 遗忘通常是读了后面忘记前面,或者过几日回顾自己读的论文完全不知道是怎么回事。 不能提纲挈领体现在喜欢逐字逐句的阅读,没有侧重点的从全局来学习论文。

那么,我们应该如何阅读机器学习领域的论文?

谷歌 Robotics 研究科学家 Eric Jang 在博客上写了一篇名为“How to Understand ML Papers Quickly”的文章,提到他的学员也经常问他一些大同小异的问题,比如 “arXiv 上的各种论文每天都泛滥成灾,我们又该如何去选择性地阅读?”

他提出,阅读大多数机器学习领域的论文的好处在于,你只需要问五个简单的问题,就能弄清楚论文的逻辑,并能避免很多麻烦,例如难懂的术语,糟糕的数学推导…

这五个问题是:

1. 函数逼近器的输入是什么?

例如,只有一个对象居中的224x224x3 RGB 视图。

2. 函数逼近器的输出是什么?

例如,对应于输入长度为1000向量的图像。

通过这种“省略”的方式思考机器学习系统的输入和输出,如此一来,你便可以跳过算法术语,并考虑其他领域是否用其他方法实现了同样的目的。我发现这种方法在阅读“元学习”领域的论文时非常有用。

通过将机器学习问题视为一组输入和预期的输出,你可以推断输入是否足以预测输出。如果不进行此练习,你可能会随便设置一个机器学习问题,输出可能无法由输入确定。因此便有可能创造一个引发“错误”的机器学习系统。

3. 关于输出的预测是以什么为代价来进行监督的?这个特定目标对世界又有什么样的假设?

机器学习模型是通过组合偏置和数据而形成的。有时偏置很强,有时又很弱。为了使模型更好地泛化,你需要添加更多偏差或者添加更多的无偏数据。正如“天下没有免费的午餐”理论所指出的,没有哪一个优秀的模型是能轻轻松松做出来的。

举一个例子:许多最优控制算法都假设一个稳定而连续的数据生成过程,即马尔可夫决策过程(MDP)。在MDP中,"状态"和"行动"通过环境的过渡动态确定映射到"下一个状态、反馈以及是否结束"。这种结构虽然非常寻常,但可以将损失进行公式化表达,使学习Q值遵循贝尔曼方程。

4. 经过训练后,模型可以从以前闻所未闻的输入/输出中概括出什么?

由于从数据或模型的体系结构中捕获了信息,因此机器学习系统可以很好地泛华。近年来,我们看到泛化的水平越来越高,因此在阅读论文时,我会去观察那些令人惊讶的泛化功能以及它们来自何处(数据,偏置或两者兼而有之)。

更好的归纳偏置在该领域存在很多噪音,例如因果推理、符号方法或以对象为中心的表示。这些是构建稳健而且可靠的机器学习系统的重要工具,而且我知道分隔结构化数据与模型的偏置界限可能很模糊。话虽如此,但让作者感到困惑的是,为什么有那么多研究人员认为推动机器学习前进的方式是减少学习量并增加硬编码行为的量。

我们之所以开展“机器学习”的科研工作,恰恰是因为有些事情我们不知道如何去进行硬编码。作为机器学习研究人员,我们应该将工作重点放在改善学习方法上,而将硬编码和符号方法留给机器硬编码研究人员使用。

5. 结论是否可证伪?

那些声称不能证伪的论文不在科学领域之内。

原文链接:https://blog.evjang.com/2021/01/understanding-ml.html

【本文是51CTO专栏机构大数据文摘的原创译文,微信公众号“大数据文摘( id: BigDataDigest)”】

戳这里,看该作者更多好文

ML 机器学习 人工智能
上一篇:机器人流程自动化的发展展望 下一篇:2021年排名前20位的AI平台
评论
取消
暂无评论,快去成为第一个评论的人吧

更多资讯推荐

Research and Markets:到2025年,全球医疗保健市场人工智能规模将达272亿美元

据市场研究机构Research and Markets近日发布的一份报告预测,到2025年,全球医疗保健市场人工智能规模将达到272亿美元。

Yu ·  1天前
到2025年,全球医疗保健市场人工智能规模将达272亿美元

全球医疗保健市场的人工智能规模预计将从2020年的42亿美元增长到2025年的272亿美元;预计在预测期内,将以45.3%的年复合增长率增长。

Yu ·  1天前
人工智能正影响司法审判!“人机合作”或将成为常态

据科技日报消息,《中国法院信息化发展报告No.5(2021)》近日正式发布。报告指出,人工智能(AI)正深刻影响着司法审判领域,“人机合作”的审判模式或将成为常态。

手机中国 ·  1天前
人工智能是应对气候变化的新时代解决方案

气候变化是我们这个星球面临的最大挑战,人工智能可以帮助我们应对不断上升的全球气温。

Cassie ·  1天前
草图变真人脸?AI:可以,多草都行

这篇论文讲技术人员如何在styleGAN顶层训练了一个深度神经网络来学习将源图像映射到styleGAN模型的输入,最终输出高质量的目标图像。

丰色 ·  1天前
深度学习算法

深度学习算法在机器视觉中就如一个巧妙的接收转换器般的存在,它灵活、敏捷、“深度”与广度兼具,强悍的计算与预测能力可以称为其魅力之处。深度计算——可以集数亿个神经网络的自拟,对于数据、语音、图像等多种形式的资源进行分析、解释。

三姆森科技 ·  2天前
人工智能工程可以帮助组织充分利用人工智能

“人工智能”这一术语如今似乎无处不在,这在行业市场的应用中造成一些混乱,甚至可能让技术决策者感到困惑。

Bob Violino ·  2天前
人工智能赖以生存的大数据,掌握在垄断者的手中真的可怕

我至今还记得2016年那场旷世人机大战,人工智能软件“阿尔法狗”战胜世界围棋冠军李世石,那是一场标志性的比赛,打破了人们对人工智能的想象。

国学达人观世界 ·  2天前
Copyright©2005-2021 51CTO.COM 版权所有 未经许可 请勿转载