关于机器学习的傻瓜式指南

作者: mylxiaoyi 2017-09-04 09:21:11

关于机器学习的傻瓜指南

成为2级新手

我第一次在工作中遇到实际的机器学习应用。我们要准备一个识别Zooplus商店中欺诈行为的应用。在经过几个月尝试了不同的解决方案之后:外部提供者,在代码中额外的if语句,灭火脚本等诸如此类,我们最终得到机器学习是最适合该工作的结论。自此以后,我们试着说服周围的人投资我们的教育并继续机器学习之路,但是并没有引人关注的成功。然而偶然的一个机会,我通过尝试Amazon的机器学习功能迈出了我的第一步,因而我认为自己是一个2级新手。在本文中,我会尝试向你 — 1级新手 — 展示如何迈出第一步,并切实地感受什么是机器学习。

什么是机器学习?

在互联网上,也许有成百上千的机器学习的定义。但是,我是初级的傻瓜,我们希望得到一些简单的东西——一些傻瓜式的东西!让我们一起来解决这个问题吧。

术语中的“机器”可能指的是计算机。我们可以想到计算机,无人驾驶飞机和其他东西,但是他们是由计算机控制的,对么?所以,机器学习是关于“计算机学习”的。

学习实际上是指的什么呢?计算机并没有大脑!没有神经元的激活,没有路径的创建。它能做的所有只是存储一些数据和进行一些操作。但是我们知道它是和数据有关的,而且是大数据(至少DZone是这么说明的)。所以我们有“关于大数据的计算机处理”。

那么,“处理”指的是什么呢?作为2级新手,我可以大概讲解一下(不过我敢打赌,真正的从业人员会认为我说的话一点也不正派)。我所说的,就是利用1级新手和2级新手不想知道的高级算法进行统计分析。

我想,这样就足以形成我们在这篇文章中给机器学习定下的最终定义:“电脑对大数据进行统计分析”。够酷吧?

机器学习有什么用?

我懂,我懂。读了这么多,你还是不晓得这一切关于机器学习的知识到底有什么用。作为2级新手,我要再次说一下,我有了一个学习机器学习的机会。

有两种机器学习:监督与非监督。

监督学习

我非常希望给出监督孩子的类比,但是我并不能够。是谁发明的这个名字?!

监督学习是当你为计算机提供你期望查找的信息时,-还记得我工作识别欺诈行为的例子吗?那就是监督学习。-我告诉计算机:我希望知道这个客户是否是一个欺诈者!而计算机器执行其高级魔法并给出答案:是的,主人!或者,不是,主人!他是一个笨蛋,但是普通的一个。通常,监督学习用于所谓的分类问题中。你为计算机提供大量的数据,而它进行分类:美国人是否会再次投票给 Mr. Trump ?这个人是否得了癌症?你是否会继续阅读这篇长而有趣的文章?

非监督学习

非监督学习是你并不清楚你正在寻找什么时,你毫无思路,你告诉计算机:这里有一堆数据!找出一些有趣的内容来。而它会执行比监督学习中所用的更为高级的算法。

因为我们并不是毫无头绪-我们确切地知道我们需要什么(而且我们对更为高级的算法并不感兴趣),在接下来的部分我们会专注于监督ML。

Amazon ML简介

在不久以前,对于你和我这样的新手接触机器学习非常困难。它是整天思考数字并且认为Scala与Python是好的编程语言的书呆子们的游戏。多亏了Amazon,精于销售的这帮家伙开始卖他们自己的基础设施,并且为我们提供了伟大的工具:Amazon机器学习。

创建数据源

我们拥有超过600个文本单词,所以我们最好直接进入工作。打开你的Amazon Web控制面板并找到“机器学习”按钮。点击!你会看到一些为你提供教程之类内容的屏幕。忽略它!你不需要新手教程,因为你已经在新手教程的中间部分了。你应该看到如下内容:

所以,在大数据上执行计算统计分析的第一步将是提供真正的大数据。使用下面的链接下载文件并将其放入S3桶中:

https://s3.amazonaws.com/aml-sample-data/banking.csv

(是的,我们正在使用AWS文档教程所提供的数据。只是这个教程相对更好!)

你一旦完成,你可以返回机器学习屏幕并选择 “Create new…” ,然后选择 “Datasource”. 你应该可以看到如下内容:

Insert the S3 location and choose a Datasource name. 名字无所谓。 (最终我们会将其删除), 所以你可以为其指定任意名字。完成后点击 “Verify” 并选择 “Continue”.

你应该可以看到类似如下的屏幕内容: 

正如你看到的,Amazon通过将数据分割为不同的数据类型试图使该数据更为合理。因为这是他们的新手教程数据,所有内容都应该更为平滑。你只需要对列名相关的问题点击 “Yes” ,如果一切顺利,最后一页命名为 “y” 应该是 “Binary” 类型。如果正是这种情况,点击 “Continue”;否则,我不知道 – 我只是一个2级新手。

在第三页,Amazon最终会询问我们真正希望得到什么样的魔法结果。那正是 “Target” 。在如下的屏幕中选择最后一列:

正如你看到的,Amazon将其识别为一个二分类问题,这意味着我们现在是监督者了!点击 “Continue”。

我们的数据并不包含标识符,所以点击 “Review” 并选择 “Create Datasource”。他需要一段时间直到创建完成。一旦完成,你应该看到如下内容:

我们完成了数据源!在系统中我们拥有我们的大数据了!

有了上千的单词,我们已为了最重要的部分做好了准备。我们将会创建实际的统计分析部分。ML模型是我们的超酷的机器学习解决方案的大脑。它是由Amazon基于我们的大数据与设置所创造的神奇生物,可以为所提供的数据预测列 “y” 的值。让我们开始吧!

回到机器学习面板,再一次选择 “Create new…” 然后选择 “ML Model”。选择我们新创建的数据源。我们应该看到类似如下的内容:

点击 “Continue” 然后选择 “Review” 与 “Create ML Model”. 我们并不希望修改任何高级设置。记住,我们仅是1级与2级的新手;我们仅是希望可以看到一切可以正常工作。

一段时间后按F5刷新,我们应该看到成功界面(如下所示)。我们的ML模型已成功创建!

创建预测

如果我们创建了我们解决方案的神奇大脑而不预测任何事情,那我们会感到遗憾。由ML模型成功界面的左边选择 “Try real-time predictions” 。 点击 “Paste a record” 按钮并粘贴如下内容:

32,services,divorced,basic.9y,no,unknown,yes,cellular,dec,mon,110,1,11,0,nonexistent,-1.8,94.465,-36.1,0.883,5228.1

该行与我们的大数据文件具有相同的格式,但是缺少最后一列 – “y” 。这正是我们的神奇ML模型将要预测的内容。如果已为惊奇做好准备,点击 “Create prediction” 。 

Yes, yes, yes! 它起作用了!它预测了!如果你正确地做了我告诉你的所有事情,你预测屏幕的右边应是类似如下的内容: 

“Predicted label” 是我们预测的结果 – 惊人的 0!正是它!

清理

确保由S3桶中删除数据,从而你不会为存储支付费用。你可以由你的帐户中删除机器学习,这取决于你,因为它不会花费任何费用。

总结

我们由给出一个糟糕的机器学习定义开始。然后,我们学习监督机器学习与非监督机器学习之间的区别。最后,我们通过Amazon机器学习接口创建了一个简单的预测。现在你也许想要知道的是:我们预测了什么?我们在那里放置的是什么数据?如果它没有起作用该怎么办?目前,这些无所谓。它仅是一个例子。现在重要的是,我的2级新手是你希望预测什么?你有什么可以利用的数据?以及为使其起作用你可以做什么?在下面我会为你提供一些资源,祝你在成长为3级的道路上好运!

机器学习 傻瓜指南
上一篇:为了合成让人类听懂的语音,机器做了哪些“深度学习”? 下一篇:IEEE论文提出径向变换实现图像增强
评论
取消
暂无评论,快去成为第一个评论的人吧

更多资讯推荐

手把手教你解决90%的NLP问题

利用机器学习方法来理解和利用文本,从最简单的到state-of-the-art,由浅入深,循序渐进。

Emmanuel Ameisen ·  18h前
如何解决机器学习树集成模型的解释性问题

前些天在同行交流群里,有个话题一直在群里热烈地讨论,那就是 如何解释机器学习模型 ,因为在风控领域,一个模型如果不能得到很好的解释一般都不会被通过的,在银行里会特别的常见,所以大多数同行都是会用 LR 来建模。

SAMshare ·  23h前
刷脸取件被小学生“破解”!丰巢紧急下线 精选

近日,#小学生发现刷脸取件bug#的话题引发关注!这是真的吗?都市快报《好奇实验室》进行了验证。

好奇实验室 ·  2019-10-17 10:20:39
4 分钟!OpenAI 的机器手学会单手解魔方了,完全自学无需编程 精选

OpenAI 的机器手学会单手解魔方了,而且还原一个三阶魔方全程只花了 4 分钟,其灵巧程度让人自叹不如。

佚名 ·  2019-10-16 13:52:13
MIT新研究表明机器学习不能标记假新闻

麻省理工学院研究人员发表的两篇新论文显示,当前的机器学习模型还不能完成区分虚假新闻报道的任务。在不同的研究人员表明计算机可以令人信服地生成虚构新闻故事而无需太多人为监督之后,一些专家希望可以训练基于相同机器学习的系统来检测此类新闻。

佚名 ·  2019-10-16 11:52:15
高位截瘫患者重新行走:靠意念指挥外骨骼,法国脑机接口新突破 精选

依靠介入头部的 2 个传感器,法国里昂的一名瘫痪男子 Thibault 实现了操控外骨骼装备来助力行走。

孙滔 ·  2019-10-15 10:10:00
2008 年预测 2020 年生活方式:基本都实现了

美国皮尤研究中心曾在 2008 年预测 2020 年的生活方式,目前来看,该研究的预测基本已经实现。而对于未来 10 年,也就是 2030 年左右人们的生活,在 2017 年底的世界经济论坛上,800 多名信息和通讯技术领域的技术高管和专家给出了如下预测。

佚名 ·  2019-10-15 10:03:43
机器学习的正则化是什么意思?

正则化的好处是当特征很多时,每一个特征都会对预测y贡献一份合适的力量;所以说,使用正则化的目的就是为了防止过拟合。

佚名 ·  2019-10-15 10:01:43
Copyright©2005-2019 51CTO.COM 版权所有 未经许可 请勿转载