学习机器学习时需要尽早知道的三件事

作者: Peadar Coyle 2017-04-10 08:40:14

我已经在学术界和工业界进行了许多年的机器学习建模工作,在看了一系列讨论“大数据”实用性问题的优秀视频 Scalable ML 后,我开始思考总结一些在学习机器学习时,我希望能够尽早明白的事情。视频来源于 Mikio Braun,介绍了 Scala 和 Spark 相关的知识。

我希望在学习机器学习时能够尽早明白的事情有三项:

将模型应用到产品中并不是一件简单的小事;

在课本中我们很难学习到真正的特征选择和特征提取技巧;

模型评估阶段非常重要。

下面让我一个一个地介绍它们。

1. 将模型应用到产品中并不是一件简单的小事

我在 Data-Product 上有一场介绍如何将常微分方程应用到产品中的演讲。之后我花了好一段时间才意识到,自己一个人来处理包括模型衰退、产品中模型评价、开发与运维沟通等事务是多么的困难。Yhat 的 ScienceOps 是针对这个问题的一个解决方案。一开始我并没有意识到它有多棒,现在我发现我很难在市场中找到该产品的直接竞争者,我真的觉得他们正在解决这个非常重要的问题。渐渐地,我意识到我没有聪明到可以处理运维成员负责的事务——所以我很乐意将这项工作外包。

2. 在课本中我们很难学习到真正的特征选择和特征提取技巧

特征选择和提取方法和技巧常常无法从课本中学习。这些技巧只能从像 Kaggle 竞赛或现实世界中的项目中学习,甚至有时候需要实际应用这些技巧和方法才能学会它们。而这些工作在整个数据科学项目流程中占据了相当一部分比重。

3. 模型评估阶段非常重要

除非你已经将模型应用到测试集数据上了,否则你都不能说已经进入到预测分析阶段。像交叉验证、评估指标等评估技巧都是非常宝贵的,因为它们只需将你的数据分离成测试集和训练集。但是实际生活通常并不会将已经定义好测试集、训练集的数据给你,所以将真实世界中的数据划分为测试数据和训练数据,是一项充满创造性的工作,其中可能包含许多情感因素。在 Dato 上有许多讨论模型评估的优秀文章。

我认为 Mikio Braun 对训练集和测试集的解释值得一读。我也很喜欢他画的图并将其包含在文中,方便不熟悉训练集和测试集概念的读者理解。

我们在论文、会议甚至在讨论我们解决问题时所用的方法的时候,经常忽略了模型评价。“我们在其中使用了 SVM ”这句话并没有告诉我任何信息,这没有告诉我你的数据来源,你选择的特征,你的模型评估方法,你如何将其应用到产品中,以及你在其中如何使用交叉验证或模型查错。我认为我们需要更多关于机器学习中这些“肮脏”的方面问题的讨论。

我的朋友 Ian 在 Data Science Delivered 上有一个很好的笔记,适合需要为真实情况建立机器学习模型的任何层次的人员阅读。同时也适合希望雇佣数据科学家的招聘人员或者与数据科学团队打交道的经理阅读——如果你正在找人询问“你是如何处理这些肮脏的数据的”。

机器学习 模型应用 模型评估
上一篇:机器学习研究与开发平台的选择 下一篇:未来三年,人工智能将成为银行与客户交流的主要方式
评论
取消
暂无评论,快去成为第一个评论的人吧

更多资讯推荐

用机器学习备忘单解决艰巨问题,你行吗?

在本文中,我们将介绍如何使用备忘单简化机器学习方法,你可以使用该备忘单选择适合解决问题的正确算法。

读芯术 ·  2天前
“阿凡达”式脑-脑接口性能提升 2-3 个数量级

脑-脑接口这一概念,看过科幻电影《阿凡达》的人可能有点印象。在电影中,地球上的人可以通过脑对脑的直接信息传递,远程控制潘多拉星上经基因改造的蓝色类人生物 Na'vi 族。

付静 ·  4天前
探究谷歌用于构建量子机器学习模型的新框架:TensorFlow Quantum

TensorFlow Quantum让数据科学家可以构建在量子架构上运行的机器学习模型。TensorFlow Quantum的核心概念是将量子算法和机器学习程序交织在TensorFlow编程模型中。谷歌称这种方法为量子机器学习,能够利用其最近的一些量子计算框架(比如谷歌Cirq)来实现它。

布加迪 ·  4天前
算法之外:人工智能和机器学习对组织的影响

如今,数字科学对于企业来说,显得愈发地“诱人”。但是若要正确地看待数字科学,我们亟需了解下面一个问题:数字科学到底能为我们的业务发展做什么,不能为我们的业务发展做什么。

IMD商学院 ·  2020-03-24 15:15:54
韩松、朱俊彦等人提出GAN压缩法:算力消耗不到1/9,现已开源

近日,来自麻省理工学院(MIT)、Adobe、上海交通大学的研究者提出了一种用于压缩条件 GAN 的通用方法。这一新技术在保持视觉保真度的同时,将 pix2pix,CycleGAN 和 GauGAN 等广泛使用的条件 GAN 模型的计算量减少到 1/9~1/21。

Muyang Li等 ·  2020-03-23 15:10:49
五大方面:机器学习如何在不久的将来改变教育

如果你目前在学校或者在教育领域工作,那么对即将到来的变化有所了解是非常必要的。在这篇文章中,我们将探讨机器学习在未来几年改善教育的五种途径。

读芯术 ·  2020-03-23 07:18:22
互联网上20大免费数据科学、机器学习和人工智能慕课

现在是2020年,数据科学比以往更加民主化。这意味着任何个人只要有适当的工具和大量的数据,就可以在几乎没有专业知识的情况下进行数据科学研究。随着数据渗透到整个行业的每一个角落,拥有数据科学家的技能是大势所趋,也因此产生了一支会说数据语言的员工队伍。

读芯术 ·  2020-03-22 16:11:48
人工智能机器学习常用算法总结及各个常用算法精确率对比

本文讲解了机器学习常用算法总结和各个常用分类算法精确率对比。收集了现在比较热门的TensorFlow、Sklearn,借鉴了Github和一些国内外的文章。

程序员陈平安 ·  2020-03-20 11:22:09
Copyright©2005-2020 51CTO.COM 版权所有 未经许可 请勿转载