掌握这六步,搭建机器学习项目

作者: 读芯术 2020-01-19 11:10:44

上图白板展示了一系列机器学习项目启动

机器学习覆盖的范围十分广泛。这篇文章将整体描述机器学习适用的典型问题,提供实现机器学习项目雏形的框架。

首先厘清一些定义。

机器学习、人工智能和数据科学区别何在?

这三个主题没有明确的定义,因而有些难以理解。为防止误解,我们将问题简化。读者可以认为本文提到的机器学习就是发现数据中的规律,以理解某些问题或者预测未来事件。

希望读者在阅读以下步骤时能边学边做,检验结果。在实践中学习。

一条机器学习管道可以被分解成三个主要步骤:数据收集、数据建模和模型运用。这三个步骤相互影响、环环相扣。

启动项目时,你可能走入如下循环:收集数据,对其建模,发现收集到的数据质量较差,重新收集数据,建模,运用这一模型,发现它并不管用,重新建模,运用,发现新模型仍然没用,再次收集数据……

等等,模型是什么?运用又是什么?如何收集数据?

好问题。

收集数据的方式取决于问题。下文将展示一些例子,读者也可以看看电子表中的顾客购买记录。

建模就是运用机器学习算法从收集到的数据中寻找知识。

普通算法和机器学习算法的区别是什么?

普通的算法就像菜谱,是把原料转换为美味菜肴的一系列指令。

机器学习的特殊之处在于,原始条件是材料和菜肴,而非指令。机器学习算法研究原料和菜肴,给出转换所需的指令。

机器学习算法多种多样,不同算法解决不同问题的性能不同,但是它们的目标一致,即寻找数据中的模式或者指令集。

运用就是实际应用找到的指令集。运用的形式多种多样,既可以是在网络商店中向顾客推荐商品,也可以是为医疗机构寻找更好的疾病检测方案。

不同项目中每个步骤的具体细节不尽相同,但是原理基本相似。

本文重点讲解数据建模。假设读者已经收集到了数据,正准备用它构建一个机器学习模型。这个过程可以分为以下几步:

掌握这六步,搭建<span><span><span><i 掌握这六步,搭建<span><span><span><i style=完美的机器学习项目" src="https://p3.pstatp.com/large/pgc-image/7570d203ba3b4389b8b41c5a4687576e" width="640" height="295">

两种不同类型的结构数据。表格1.0包含数值和类别数据。表格2.0以结构化形式包含图片和自然语言文本等非结构数据。

两种不同类型的结构数据。表格1.0包含数值和类别数据。表格2.0以结构化形式包含图片和自然语言文本等非结构数据。

尽管数据种类不同,原则都是一致的,那就是使用数据以获取知识或者预测事件。

有监督学习使用特征变量来预测目标变量。预测心脏病可能需要用到性别这一特征变量,目标变量可能是病人是否患有心脏病。

掌握这六步,搭建<span><span><span><i 掌握这六步,搭建<span><span><span><i style=完美的机器学习项目" src="https://p1.pstatp.com/large/pgc-image/b6745e88d4ed4fc089c605f982299942" width="692" height="208">

首先,主要工作是确保输入(数据)和已有模型相匹配。下一步是确保输出符合问题定义和评价标准。

微调和改进模型

模型的最初结果并不意味着一切。可以像调试一辆汽车一样调试并改进机器学习模型。

微调模型需要改变超参数,比如调整学习率或者优化器。或者是其他特定模型中的建构因素,比如随机森林中树的数量以及神经网络的层数。

这一调整过程曾经是人工的,如今逐渐走向自动化,并将无处不在。

通过迁移学习调用预训练模型能够综合前述步骤的优势。

调试模型时应优先考虑可复制性和效率。其他人应该能够重现你的步骤来改进他们的模型。由于主要目标是减少训练时间而不是提出新的思路,调试过程应该是效率导向的。

比较模型

把苹果与苹果比较。

使用数据X训练模型1,使用数据Y来评测

使用数据X训练模型2,使用数据Y来评测

必须使用同样的数据训练和评测不同模型。模型1和2是可变的,而数据X, Y则不然。

6. 实验——还可以尝试什么方法?我们的发现如何影响其他步骤?模型是否表现得符合预期?

这一步包含了其他所有步骤。因为机器学习是个高度迭代的过程,必须确保实验可以执行。

首要目标是要尽量缩小线下实验和线上实验间的时间差。

线下实验发生在项目还没有向用户开放时。线上实验发生在机器学习模型开始批量生产之后。

每一次实验必须使用数据的不同部分。

  • 训练数据集——使用它来训练模型,一般占整个数据集的70%-80%。
  • 验证/开发数据集——使用它来微调模型,一般占整个数据集的10%-15%。
  • 测试数据集——使用它来测试和比较模型,一般占整个数据集的10%-15%。

这些数据集的数据量可以根据问题和数据的类型略微浮动。

如果模型在训练集上表现不佳,意味着它没有很好地学习。解决方案是尝试不同的模型、改进现有的模型或者收集更多高质量数据。

如果模型在测试集上表现不佳,意味着它难以推广。模型可能发生了过拟合。使用一个更简单的模型或者收集更多数据。

如果模型在真实数据上表现不佳,意味着真实数据和训练集与数据集之间差异较大。重复前面两步。确保数据与待解决的问题相符。

尝试大幅改变时,记录内容和原因。记住,就像在模型微调中一样,所有人,包括未来的你自己,都应该能够重复你的操作。

这意味着需要定期保存最新的模型和数据集。

结合上述步骤,做出项目雏形

许多企业对机器学习略知一二,但不知道如何开始运用。最好通过上面六步做出概念模型。

此类尝试的目的不在于从根本上改变商业运营模式,只是探索使用机器学习为公司增添商业价值的可能性。

毕竟,目标并非追赶华而不实的潮流,而是获得真正有价值的解决方案。

规定好搭建项目雏形的期限,两周、六周和十二周都是比较合适的。有了高质量的数据,一个优秀的机器学习和数据科学从业者可以在短时间内实现最终建模成果的80%-90%。

行业专家、机器学习工程师和数据科学家应该协同合作。否则可能搭建出一个用于错误对象的优秀模型,这是非常糟糕的结果。

如果可能的话,通知网络设计师改进在线商店的布局,以帮助机器学习实验。

由于项目雏形的特性,你的企业可能无法从机器学习中获利。项目经理必须清楚这一点。机器学习工程师或者数据科学家也要做好白费努力的心理准备。

但无法获利并不意味着满盘皆输。

无用的模型也有价值,你能从中得知什么是无用的,然后把精力花在别处。这就是为实验设定期限的原因。时间总是不够用,但ddl就是生产力。

如果机器学习模型表现很好,继续下一步,否则就回到上一步。在实践中学习比空想要快得多。

注意

数据是核心。没有高质量的数据,任何机器学习模型都将徒劳无功。运用机器学习应该从收集高质量数据开始。

应用会改变一切。离线表现很好的模型可能在上线时表现不佳。本文的重点是数据建模。模型一旦投入使用,就会面临架构管理、数据验证、模型再训练和分析等诸多问题。云服务商会提供这些服务,但把它们结合起来仍然是黑科技。如果你是老板,给你的数据工程师开出高薪。如果你是数据工程师,和老板分享你所掌握的。

数据收集和模型运用是机器学习管道中耗时最长的部分。本文仅讨论了建模,但仍然遗漏了数据预处理的细节。

商业工具多种多样。机器学习是一个由许多小工具组成的大工具。从代码库和框架到不同的应用架构。每一个问题都有许多不同的解决方案。最佳的实现方法总在不断更新。但本文所讨论的话题万变不离其宗。

机器学习 人工智能 数据科学
上一篇:上海失独妈妈用AI“复活”了年仅14岁女儿...... 下一篇:搞AI的,怎么才能不失业?
评论
取消
暂无评论,快去成为第一个评论的人吧

更多资讯推荐

加速算力的迭代优化 AI芯片需破解落地难题

AI芯片怎样支撑多姿多彩的人工智能应用落地?评测标准进展如何?今年的亮点、看点又在哪?科技日报记者采访了相关专家。

唐 芳 ·  18h前
机器学习第一步,这是一篇手把手的随机森林入门实战

到了 2020 年,我们已经能找到很多好玩的机器学习教程。本文则从最流行的随机森林出发,手把手教你构建一个模型,它的完整流程到底是什么样的。

机器之心 ·  19h前
互联网巨头集体封杀,AI换脸能走多远?

多少人还记得去年在微博爆火的视频:有人将《射雕英雄传》中朱茵扮演的“黄蓉”换成了杨幂,换脸后的“黄蓉”毫无痕迹,并且轮廓清晰、表情自然,完全看不出是经过换脸的。

读芯术 ·  21h前
阿里达摩院再造AI抗疫技术:20秒判读CT影像,识别准确率达96%

阿里方面最新消息,达摩院联合阿里云针对新冠肺炎临床诊断研发了一套全新AI诊断技术。

允中 ·  23h前
人工智能如何赋能经济高质量发展

继第一、第二、第三次工业革命之后,人工智能可能引发人类的第四次工业革命,并且其对人类经济社会文化的影响深度远远超过前三次革命。如何看待人工智能对我经济社会发展的影响?如何形成人工智能产业新生态?记者专访了中国科学技术发展战略研究院研究员李修全。

佚名 ·  1天前
精心整理,机器学习的3大学习资源

机器学习有无尽可能性,该领域薪资高,工作者在工作上能享受到极大乐趣,这让他们大多数时候感觉不像工作。然而,零经验者如何在合理时间内掌握机器学习?本文会给出答案。

读芯术 ·  1天前
欺诈不可怕,机器学习算法分分钟拿下! 精选

根据一项调查,采用基于AI的解决方案的防欺诈专家中有80%认为AI对打击欺诈者有效。但是,仍然存在的问题是弄清楚哪种机器学习算法可以有效地检测未知的欺诈模式。监督学习和无监督学习算法哪一个更有效?

读芯术 ·  2天前
助力抗疫,人工智能和大数据将全面爆发? 精选

新型冠状病毒肺炎疫情的爆发和传播,牵动着全国人民的心。社会各界纷纷投入到这场没有硝烟的疫情阻击战中。

中国经营报 ·  3天前
Copyright©2005-2020 51CTO.COM 版权所有 未经许可 请勿转载