关于机器学习的傻瓜式指南

作者: mylxiaoyi 2017-09-04 09:21:11

关于机器学习的傻瓜指南

成为2级新手

我第一次在工作中遇到实际的机器学习应用。我们要准备一个识别Zooplus商店中欺诈行为的应用。在经过几个月尝试了不同的解决方案之后:外部提供者,在代码中额外的if语句,灭火脚本等诸如此类,我们最终得到机器学习是最适合该工作的结论。自此以后,我们试着说服周围的人投资我们的教育并继续机器学习之路,但是并没有引人关注的成功。然而偶然的一个机会,我通过尝试Amazon的机器学习功能迈出了我的第一步,因而我认为自己是一个2级新手。在本文中,我会尝试向你 — 1级新手 — 展示如何迈出第一步,并切实地感受什么是机器学习。

什么是机器学习?

在互联网上,也许有成百上千的机器学习的定义。但是,我是初级的傻瓜,我们希望得到一些简单的东西——一些傻瓜式的东西!让我们一起来解决这个问题吧。

术语中的“机器”可能指的是计算机。我们可以想到计算机,无人驾驶飞机和其他东西,但是他们是由计算机控制的,对么?所以,机器学习是关于“计算机学习”的。

学习实际上是指的什么呢?计算机并没有大脑!没有神经元的激活,没有路径的创建。它能做的所有只是存储一些数据和进行一些操作。但是我们知道它是和数据有关的,而且是大数据(至少DZone是这么说明的)。所以我们有“关于大数据的计算机处理”。

那么,“处理”指的是什么呢?作为2级新手,我可以大概讲解一下(不过我敢打赌,真正的从业人员会认为我说的话一点也不正派)。我所说的,就是利用1级新手和2级新手不想知道的高级算法进行统计分析。

我想,这样就足以形成我们在这篇文章中给机器学习定下的最终定义:“电脑对大数据进行统计分析”。够酷吧?

机器学习有什么用?

我懂,我懂。读了这么多,你还是不晓得这一切关于机器学习的知识到底有什么用。作为2级新手,我要再次说一下,我有了一个学习机器学习的机会。

有两种机器学习:监督与非监督。

监督学习

我非常希望给出监督孩子的类比,但是我并不能够。是谁发明的这个名字?!

监督学习是当你为计算机提供你期望查找的信息时,-还记得我工作识别欺诈行为的例子吗?那就是监督学习。-我告诉计算机:我希望知道这个客户是否是一个欺诈者!而计算机器执行其高级魔法并给出答案:是的,主人!或者,不是,主人!他是一个笨蛋,但是普通的一个。通常,监督学习用于所谓的分类问题中。你为计算机提供大量的数据,而它进行分类:美国人是否会再次投票给 Mr. Trump ?这个人是否得了癌症?你是否会继续阅读这篇长而有趣的文章?

非监督学习

非监督学习是你并不清楚你正在寻找什么时,你毫无思路,你告诉计算机:这里有一堆数据!找出一些有趣的内容来。而它会执行比监督学习中所用的更为高级的算法。

因为我们并不是毫无头绪-我们确切地知道我们需要什么(而且我们对更为高级的算法并不感兴趣),在接下来的部分我们会专注于监督ML。

Amazon ML简介

在不久以前,对于你和我这样的新手接触机器学习非常困难。它是整天思考数字并且认为Scala与Python是好的编程语言的书呆子们的游戏。多亏了Amazon,精于销售的这帮家伙开始卖他们自己的基础设施,并且为我们提供了伟大的工具:Amazon机器学习。

创建数据源

我们拥有超过600个文本单词,所以我们最好直接进入工作。打开你的Amazon Web控制面板并找到“机器学习”按钮。点击!你会看到一些为你提供教程之类内容的屏幕。忽略它!你不需要新手教程,因为你已经在新手教程的中间部分了。你应该看到如下内容:

所以,在大数据上执行计算统计分析的第一步将是提供真正的大数据。使用下面的链接下载文件并将其放入S3桶中:

https://s3.amazonaws.com/aml-sample-data/banking.csv

(是的,我们正在使用AWS文档教程所提供的数据。只是这个教程相对更好!)

你一旦完成,你可以返回机器学习屏幕并选择 “Create new…” ,然后选择 “Datasource”. 你应该可以看到如下内容:

Insert the S3 location and choose a Datasource name. 名字无所谓。 (最终我们会将其删除), 所以你可以为其指定任意名字。完成后点击 “Verify” 并选择 “Continue”.

你应该可以看到类似如下的屏幕内容: 

正如你看到的,Amazon通过将数据分割为不同的数据类型试图使该数据更为合理。因为这是他们的新手教程数据,所有内容都应该更为平滑。你只需要对列名相关的问题点击 “Yes” ,如果一切顺利,最后一页命名为 “y” 应该是 “Binary” 类型。如果正是这种情况,点击 “Continue”;否则,我不知道 – 我只是一个2级新手。

在第三页,Amazon最终会询问我们真正希望得到什么样的魔法结果。那正是 “Target” 。在如下的屏幕中选择最后一列:

正如你看到的,Amazon将其识别为一个二分类问题,这意味着我们现在是监督者了!点击 “Continue”。

我们的数据并不包含标识符,所以点击 “Review” 并选择 “Create Datasource”。他需要一段时间直到创建完成。一旦完成,你应该看到如下内容:

我们完成了数据源!在系统中我们拥有我们的大数据了!

有了上千的单词,我们已为了最重要的部分做好了准备。我们将会创建实际的统计分析部分。ML模型是我们的超酷的机器学习解决方案的大脑。它是由Amazon基于我们的大数据与设置所创造的神奇生物,可以为所提供的数据预测列 “y” 的值。让我们开始吧!

回到机器学习面板,再一次选择 “Create new…” 然后选择 “ML Model”。选择我们新创建的数据源。我们应该看到类似如下的内容:

点击 “Continue” 然后选择 “Review” 与 “Create ML Model”. 我们并不希望修改任何高级设置。记住,我们仅是1级与2级的新手;我们仅是希望可以看到一切可以正常工作。

一段时间后按F5刷新,我们应该看到成功界面(如下所示)。我们的ML模型已成功创建!

创建预测

如果我们创建了我们解决方案的神奇大脑而不预测任何事情,那我们会感到遗憾。由ML模型成功界面的左边选择 “Try real-time predictions” 。 点击 “Paste a record” 按钮并粘贴如下内容:

32,services,divorced,basic.9y,no,unknown,yes,cellular,dec,mon,110,1,11,0,nonexistent,-1.8,94.465,-36.1,0.883,5228.1

该行与我们的大数据文件具有相同的格式,但是缺少最后一列 – “y” 。这正是我们的神奇ML模型将要预测的内容。如果已为惊奇做好准备,点击 “Create prediction” 。 

Yes, yes, yes! 它起作用了!它预测了!如果你正确地做了我告诉你的所有事情,你预测屏幕的右边应是类似如下的内容: 

“Predicted label” 是我们预测的结果 – 惊人的 0!正是它!

清理

确保由S3桶中删除数据,从而你不会为存储支付费用。你可以由你的帐户中删除机器学习,这取决于你,因为它不会花费任何费用。

总结

我们由给出一个糟糕的机器学习定义开始。然后,我们学习监督机器学习与非监督机器学习之间的区别。最后,我们通过Amazon机器学习接口创建了一个简单的预测。现在你也许想要知道的是:我们预测了什么?我们在那里放置的是什么数据?如果它没有起作用该怎么办?目前,这些无所谓。它仅是一个例子。现在重要的是,我的2级新手是你希望预测什么?你有什么可以利用的数据?以及为使其起作用你可以做什么?在下面我会为你提供一些资源,祝你在成长为3级的道路上好运!

机器学习 傻瓜指南
上一篇:为了合成让人类听懂的语音,机器做了哪些“深度学习”? 下一篇:IEEE论文提出径向变换实现图像增强
评论
取消
暂无评论,快去成为第一个评论的人吧

更多资讯推荐

用机器学习备忘单解决艰巨问题,你行吗?

在本文中,我们将介绍如何使用备忘单简化机器学习方法,你可以使用该备忘单选择适合解决问题的正确算法。

读芯术 ·  2天前
“阿凡达”式脑-脑接口性能提升 2-3 个数量级

脑-脑接口这一概念,看过科幻电影《阿凡达》的人可能有点印象。在电影中,地球上的人可以通过脑对脑的直接信息传递,远程控制潘多拉星上经基因改造的蓝色类人生物 Na'vi 族。

付静 ·  2020-03-26 10:42:31
探究谷歌用于构建量子机器学习模型的新框架:TensorFlow Quantum

TensorFlow Quantum让数据科学家可以构建在量子架构上运行的机器学习模型。TensorFlow Quantum的核心概念是将量子算法和机器学习程序交织在TensorFlow编程模型中。谷歌称这种方法为量子机器学习,能够利用其最近的一些量子计算框架(比如谷歌Cirq)来实现它。

布加迪 ·  2020-03-26 08:00:00
算法之外:人工智能和机器学习对组织的影响

如今,数字科学对于企业来说,显得愈发地“诱人”。但是若要正确地看待数字科学,我们亟需了解下面一个问题:数字科学到底能为我们的业务发展做什么,不能为我们的业务发展做什么。

IMD商学院 ·  2020-03-24 15:15:54
韩松、朱俊彦等人提出GAN压缩法:算力消耗不到1/9,现已开源

近日,来自麻省理工学院(MIT)、Adobe、上海交通大学的研究者提出了一种用于压缩条件 GAN 的通用方法。这一新技术在保持视觉保真度的同时,将 pix2pix,CycleGAN 和 GauGAN 等广泛使用的条件 GAN 模型的计算量减少到 1/9~1/21。

Muyang Li等 ·  2020-03-23 15:10:49
五大方面:机器学习如何在不久的将来改变教育

如果你目前在学校或者在教育领域工作,那么对即将到来的变化有所了解是非常必要的。在这篇文章中,我们将探讨机器学习在未来几年改善教育的五种途径。

读芯术 ·  2020-03-23 07:18:22
互联网上20大免费数据科学、机器学习和人工智能慕课

现在是2020年,数据科学比以往更加民主化。这意味着任何个人只要有适当的工具和大量的数据,就可以在几乎没有专业知识的情况下进行数据科学研究。随着数据渗透到整个行业的每一个角落,拥有数据科学家的技能是大势所趋,也因此产生了一支会说数据语言的员工队伍。

读芯术 ·  2020-03-22 16:11:48
人工智能机器学习常用算法总结及各个常用算法精确率对比

本文讲解了机器学习常用算法总结和各个常用分类算法精确率对比。收集了现在比较热门的TensorFlow、Sklearn,借鉴了Github和一些国内外的文章。

程序员陈平安 ·  2020-03-20 11:22:09
Copyright©2005-2020 51CTO.COM 版权所有 未经许可 请勿转载