学习机器学习时需要尽早知道的三件事

作者: Peadar Coyle 2017-04-10 08:40:14

我已经在学术界和工业界进行了许多年的机器学习建模工作,在看了一系列讨论“大数据”实用性问题的优秀视频 Scalable ML 后,我开始思考总结一些在学习机器学习时,我希望能够尽早明白的事情。视频来源于 Mikio Braun,介绍了 Scala 和 Spark 相关的知识。

我希望在学习机器学习时能够尽早明白的事情有三项:

将模型应用到产品中并不是一件简单的小事;

在课本中我们很难学习到真正的特征选择和特征提取技巧;

模型评估阶段非常重要。

下面让我一个一个地介绍它们。

1. 将模型应用到产品中并不是一件简单的小事

我在 Data-Product 上有一场介绍如何将常微分方程应用到产品中的演讲。之后我花了好一段时间才意识到,自己一个人来处理包括模型衰退、产品中模型评价、开发与运维沟通等事务是多么的困难。Yhat 的 ScienceOps 是针对这个问题的一个解决方案。一开始我并没有意识到它有多棒,现在我发现我很难在市场中找到该产品的直接竞争者,我真的觉得他们正在解决这个非常重要的问题。渐渐地,我意识到我没有聪明到可以处理运维成员负责的事务——所以我很乐意将这项工作外包。

2. 在课本中我们很难学习到真正的特征选择和特征提取技巧

特征选择和提取方法和技巧常常无法从课本中学习。这些技巧只能从像 Kaggle 竞赛或现实世界中的项目中学习,甚至有时候需要实际应用这些技巧和方法才能学会它们。而这些工作在整个数据科学项目流程中占据了相当一部分比重。

3. 模型评估阶段非常重要

除非你已经将模型应用到测试集数据上了,否则你都不能说已经进入到预测分析阶段。像交叉验证、评估指标等评估技巧都是非常宝贵的,因为它们只需将你的数据分离成测试集和训练集。但是实际生活通常并不会将已经定义好测试集、训练集的数据给你,所以将真实世界中的数据划分为测试数据和训练数据,是一项充满创造性的工作,其中可能包含许多情感因素。在 Dato 上有许多讨论模型评估的优秀文章。

我认为 Mikio Braun 对训练集和测试集的解释值得一读。我也很喜欢他画的图并将其包含在文中,方便不熟悉训练集和测试集概念的读者理解。

我们在论文、会议甚至在讨论我们解决问题时所用的方法的时候,经常忽略了模型评价。“我们在其中使用了 SVM ”这句话并没有告诉我任何信息,这没有告诉我你的数据来源,你选择的特征,你的模型评估方法,你如何将其应用到产品中,以及你在其中如何使用交叉验证或模型查错。我认为我们需要更多关于机器学习中这些“肮脏”的方面问题的讨论。

我的朋友 Ian 在 Data Science Delivered 上有一个很好的笔记,适合需要为真实情况建立机器学习模型的任何层次的人员阅读。同时也适合希望雇佣数据科学家的招聘人员或者与数据科学团队打交道的经理阅读——如果你正在找人询问“你是如何处理这些肮脏的数据的”。

机器学习 模型应用 模型评估
上一篇:机器学习研究与开发平台的选择 下一篇:未来三年,人工智能将成为银行与客户交流的主要方式
评论
取消
暂无评论,快去成为第一个评论的人吧

更多资讯推荐

搭建容易维护难!谷歌机器学习系统血泪教训

希望这篇论文能够为在生产环境中采用机器学习系统的开发者与维护者提供一些实用建议。作者警告称,虽然从零搭建机器学习系统还算轻松,但随后的改进却可能存在出乎意料的困难。

核子可乐 ·  21h前
如何使用Flask轻松部署机器学习模型?

本文旨在让你开始使用Flask API将经过训练的机器学习模型部署到生产环境。

布加迪 ·  23h前
如何使用Flask轻松部署机器学习模型?

本文旨在让你开始使用Flask API将经过训练的机器学习模型部署到生产环境。

布加迪 ·  23h前
指南 | 手把手教你解决90%的NLP问题

利用机器学习方法来理解和利用文本,从最简单的到state-of-the-art,由浅入深,循序渐进。

Emmanuel Ameisen ·  1天前
如何解决机器学习树集成模型的解释性问题

前些天在同行交流群里,有个话题一直在群里热烈地讨论,那就是 如何解释机器学习模型 ,因为在风控领域,一个模型如果不能得到很好的解释一般都不会被通过的,在银行里会特别的常见,所以大多数同行都是会用 LR 来建模。

SAMshare ·  1天前
刷脸取件被小学生“破解”!丰巢紧急下线 精选

近日,#小学生发现刷脸取件bug#的话题引发关注!这是真的吗?都市快报《好奇实验室》进行了验证。

好奇实验室 ·  2019-10-17 10:20:39
4 分钟!OpenAI 的机器手学会单手解魔方了,完全自学无需编程 精选

OpenAI 的机器手学会单手解魔方了,而且还原一个三阶魔方全程只花了 4 分钟,其灵巧程度让人自叹不如。

佚名 ·  2019-10-16 13:52:13
MIT新研究表明机器学习不能标记假新闻

麻省理工学院研究人员发表的两篇新论文显示,当前的机器学习模型还不能完成区分虚假新闻报道的任务。在不同的研究人员表明计算机可以令人信服地生成虚构新闻故事而无需太多人为监督之后,一些专家希望可以训练基于相同机器学习的系统来检测此类新闻。

佚名 ·  2019-10-16 11:52:15
Copyright©2005-2019 51CTO.COM 版权所有 未经许可 请勿转载