关于机器学习的傻瓜式指南

作者: mylxiaoyi 2017-09-04 09:21:11

关于机器学习的傻瓜指南

成为2级新手

我第一次在工作中遇到实际的机器学习应用。我们要准备一个识别Zooplus商店中欺诈行为的应用。在经过几个月尝试了不同的解决方案之后:外部提供者,在代码中额外的if语句,灭火脚本等诸如此类,我们最终得到机器学习是最适合该工作的结论。自此以后,我们试着说服周围的人投资我们的教育并继续机器学习之路,但是并没有引人关注的成功。然而偶然的一个机会,我通过尝试Amazon的机器学习功能迈出了我的第一步,因而我认为自己是一个2级新手。在本文中,我会尝试向你 — 1级新手 — 展示如何迈出第一步,并切实地感受什么是机器学习。

什么是机器学习?

在互联网上,也许有成百上千的机器学习的定义。但是,我是初级的傻瓜,我们希望得到一些简单的东西——一些傻瓜式的东西!让我们一起来解决这个问题吧。

术语中的“机器”可能指的是计算机。我们可以想到计算机,无人驾驶飞机和其他东西,但是他们是由计算机控制的,对么?所以,机器学习是关于“计算机学习”的。

学习实际上是指的什么呢?计算机并没有大脑!没有神经元的激活,没有路径的创建。它能做的所有只是存储一些数据和进行一些操作。但是我们知道它是和数据有关的,而且是大数据(至少DZone是这么说明的)。所以我们有“关于大数据的计算机处理”。

那么,“处理”指的是什么呢?作为2级新手,我可以大概讲解一下(不过我敢打赌,真正的从业人员会认为我说的话一点也不正派)。我所说的,就是利用1级新手和2级新手不想知道的高级算法进行统计分析。

我想,这样就足以形成我们在这篇文章中给机器学习定下的最终定义:“电脑对大数据进行统计分析”。够酷吧?

机器学习有什么用?

我懂,我懂。读了这么多,你还是不晓得这一切关于机器学习的知识到底有什么用。作为2级新手,我要再次说一下,我有了一个学习机器学习的机会。

有两种机器学习:监督与非监督。

监督学习

我非常希望给出监督孩子的类比,但是我并不能够。是谁发明的这个名字?!

监督学习是当你为计算机提供你期望查找的信息时,-还记得我工作识别欺诈行为的例子吗?那就是监督学习。-我告诉计算机:我希望知道这个客户是否是一个欺诈者!而计算机器执行其高级魔法并给出答案:是的,主人!或者,不是,主人!他是一个笨蛋,但是普通的一个。通常,监督学习用于所谓的分类问题中。你为计算机提供大量的数据,而它进行分类:美国人是否会再次投票给 Mr. Trump ?这个人是否得了癌症?你是否会继续阅读这篇长而有趣的文章?

非监督学习

非监督学习是你并不清楚你正在寻找什么时,你毫无思路,你告诉计算机:这里有一堆数据!找出一些有趣的内容来。而它会执行比监督学习中所用的更为高级的算法。

因为我们并不是毫无头绪-我们确切地知道我们需要什么(而且我们对更为高级的算法并不感兴趣),在接下来的部分我们会专注于监督ML。

Amazon ML简介

在不久以前,对于你和我这样的新手接触机器学习非常困难。它是整天思考数字并且认为Scala与Python是好的编程语言的书呆子们的游戏。多亏了Amazon,精于销售的这帮家伙开始卖他们自己的基础设施,并且为我们提供了伟大的工具:Amazon机器学习。

创建数据源

我们拥有超过600个文本单词,所以我们最好直接进入工作。打开你的Amazon Web控制面板并找到“机器学习”按钮。点击!你会看到一些为你提供教程之类内容的屏幕。忽略它!你不需要新手教程,因为你已经在新手教程的中间部分了。你应该看到如下内容:

所以,在大数据上执行计算统计分析的第一步将是提供真正的大数据。使用下面的链接下载文件并将其放入S3桶中:

https://s3.amazonaws.com/aml-sample-data/banking.csv

(是的,我们正在使用AWS文档教程所提供的数据。只是这个教程相对更好!)

你一旦完成,你可以返回机器学习屏幕并选择 “Create new…” ,然后选择 “Datasource”. 你应该可以看到如下内容:

Insert the S3 location and choose a Datasource name. 名字无所谓。 (最终我们会将其删除), 所以你可以为其指定任意名字。完成后点击 “Verify” 并选择 “Continue”.

你应该可以看到类似如下的屏幕内容: 

正如你看到的,Amazon通过将数据分割为不同的数据类型试图使该数据更为合理。因为这是他们的新手教程数据,所有内容都应该更为平滑。你只需要对列名相关的问题点击 “Yes” ,如果一切顺利,最后一页命名为 “y” 应该是 “Binary” 类型。如果正是这种情况,点击 “Continue”;否则,我不知道 – 我只是一个2级新手。

在第三页,Amazon最终会询问我们真正希望得到什么样的魔法结果。那正是 “Target” 。在如下的屏幕中选择最后一列:

正如你看到的,Amazon将其识别为一个二分类问题,这意味着我们现在是监督者了!点击 “Continue”。

我们的数据并不包含标识符,所以点击 “Review” 并选择 “Create Datasource”。他需要一段时间直到创建完成。一旦完成,你应该看到如下内容:

我们完成了数据源!在系统中我们拥有我们的大数据了!

有了上千的单词,我们已为了最重要的部分做好了准备。我们将会创建实际的统计分析部分。ML模型是我们的超酷的机器学习解决方案的大脑。它是由Amazon基于我们的大数据与设置所创造的神奇生物,可以为所提供的数据预测列 “y” 的值。让我们开始吧!

回到机器学习面板,再一次选择 “Create new…” 然后选择 “ML Model”。选择我们新创建的数据源。我们应该看到类似如下的内容:

点击 “Continue” 然后选择 “Review” 与 “Create ML Model”. 我们并不希望修改任何高级设置。记住,我们仅是1级与2级的新手;我们仅是希望可以看到一切可以正常工作。

一段时间后按F5刷新,我们应该看到成功界面(如下所示)。我们的ML模型已成功创建!

创建预测

如果我们创建了我们解决方案的神奇大脑而不预测任何事情,那我们会感到遗憾。由ML模型成功界面的左边选择 “Try real-time predictions” 。 点击 “Paste a record” 按钮并粘贴如下内容:

32,services,divorced,basic.9y,no,unknown,yes,cellular,dec,mon,110,1,11,0,nonexistent,-1.8,94.465,-36.1,0.883,5228.1

该行与我们的大数据文件具有相同的格式,但是缺少最后一列 – “y” 。这正是我们的神奇ML模型将要预测的内容。如果已为惊奇做好准备,点击 “Create prediction” 。 

Yes, yes, yes! 它起作用了!它预测了!如果你正确地做了我告诉你的所有事情,你预测屏幕的右边应是类似如下的内容: 

“Predicted label” 是我们预测的结果 – 惊人的 0!正是它!

清理

确保由S3桶中删除数据,从而你不会为存储支付费用。你可以由你的帐户中删除机器学习,这取决于你,因为它不会花费任何费用。

总结

我们由给出一个糟糕的机器学习定义开始。然后,我们学习监督机器学习与非监督机器学习之间的区别。最后,我们通过Amazon机器学习接口创建了一个简单的预测。现在你也许想要知道的是:我们预测了什么?我们在那里放置的是什么数据?如果它没有起作用该怎么办?目前,这些无所谓。它仅是一个例子。现在重要的是,我的2级新手是你希望预测什么?你有什么可以利用的数据?以及为使其起作用你可以做什么?在下面我会为你提供一些资源,祝你在成长为3级的道路上好运!

机器学习 傻瓜指南
上一篇:为了合成让人类听懂的语音,机器做了哪些“深度学习”? 下一篇:IEEE论文提出径向变换实现图像增强
评论
取消
暂无评论,快去成为第一个评论的人吧

更多资讯推荐

基于机器学习的自动漏洞修复分析方法

。在本文中,我们提出了一个基于机器学习的自动化框架来自动化电力公司的修复决策分析。我们将其应用于一家电力公司,并对从该公司获得的两个真实运行数据集进行了大量实验。结果表明,该解决方案具有很高的有效性。

佚名 ·  21h前
解锁人工智能、机器学习和深度学习

深度学习是机器学习的子集,而机器学习又是人工智能的子集,但是这些名称的起源来自一个有趣的历史。此外,还有一些引人入胜的技术特征,可将深度学习与其他类型的机器学习区分开来……对于技能水平较高的ML、DL或AI的任何人来说,这都是必不可少的工作知识。

佚名 ·  22h前
你只需要这三个机器学习工具

在这件作品中,我们将讨论唯一需要的3个机器学习工具,使您的团队在产品中应用机器学习方面取得成功。

闻数起舞 ·  23h前
开发板能这么用?美国学者用Jetson Nano支持假肢,控制每一根手指

在一篇新论文中,来自明尼苏达大学等机构的研究者提出了一种基于嵌入式深度学习控制的神经假肢实现。

佚名 ·  3天前
机器学习如何影响系统设计:Learned Index Structures浅析

本文简要介绍了Learned Index Structures的实现和优缺点,希望可以给大家带来一些系统设计的启发和思路。

作者Victor ·  3天前
吴恩达的二八定律:80%的数据+20%的模型=更好的机器学习

一个机器学习团队80%的工作应该放在数据准备上,确保数据质量是最重要的工作,每个人都知道应该如此做,但没人在乎。

新智元 ·  3天前
机器学习在铁路缺陷检测中的实际应用

本文介绍了在铁轨的超声波检测过程中有效使用机器学习技术自动检测缺陷的经验,并提出了一种使用数学建模为神经网络创建训练数据集的有效方法,为实际缺陷图的识别提供了更高精度的指标。文中训练神经网络运算的原型实例,其实际缺陷图的预测精度高达92%。

李睿 ·  3天前
人工智能进军“古玩鉴定”,人类职业再遭冲击?

近两年,人工智能的风头虽然偶被5G、自动驾驶等所盖过,但其发展和热度并未因此受到影响。

林中易木 ·  4天前
Copyright©2005-2021 51CTO.COM 版权所有 未经许可 请勿转载