一周入门机器学习靠谱吗?这有一份详细的学习日程表

作者: 魏子敏 赖小娟 张礼俊译 2017-03-16 14:01:00

一周入门机器学习靠谱吗?这有一份详细的学习日程表

原作者 | Per Harald Borgen

编译 | 魏子敏,赖小娟,张礼俊

“对外行来说,想要入门机器学习可能是个不可完成的任务。然而,在沉溺于一周的机器学习基础学习之后,我发现它比我之前想象的更容易理解。”

这篇文章来自于medium,一位作者亲历了一周入门机器学习后,分享他的“从下到上”的学习经验给各位,希望给那些有兴趣入门机器学习的读者一个容易上手的详细日程表。

背景

在我开始我的机器学习周之前,我已经了解这个项目一段时间了,浏览了一半Coursera上Andrew NG的课程和其他一些理论性课程。虽然我还不能完全将我的知识转化成代码,但对机器学习已经有了大致的概念理解。这也是促使我想改变的原因。

我想要一周结束之时有能力解决机器学习的问题,虽然这意味着会跳过很多基础知识,使用从上到下的学习方法代替从底层到高层的方式。

在征得Hacker News的意见之后,我总结出Python的Scikit Learn模型是最好的开始入口点。这个模型提供了丰富的算法可供选择,将机器学习实战降低在数十行代码之内。

星期一:实例学习

在一周的开始,我去寻找一些Scikit Learn的视频教学,最后我选择了Sentdex的关于怎么样用机器学习投资股票的辅导视频,这个视频给了我继续下一步学习的必要知识。

Sentdex的关于怎么样用机器学习投资股票的辅导视频

Sentdex辅导视频比较好的一方面是导师展示了关于数据收集的所有步骤。当你们顺着再往下学习,你们会意识到获取和清洗数据的时间会比实际机器学习操作的时间还要多很多。因此有能力写出脚本从文件和网页上抓取到数据是成为机器学习专家的必要技能。

之后我还反复看了好几遍这个视频,在我被问题卡住的时候很有帮助,建议你们也多看几遍。然而,如果你已经知道怎么从网站上获得数据,这个教程可能不是最合适的,大段大段的围绕着数据的获取。Udacity的机器学习入门教程或许更适合你。

星期二:实际问题中的应用

星期二我想看看我是不是可以用我学到的东西去解决一个实际的问题。由于和我合作写代码的另一个开发人员正在参加英格兰银行的数据可视化竞赛,我跟他一起合作查看了银行公布的数据集。最有趣的数据是关于他们房屋调查,一个由银行完成的基于几千个家庭关于钱的相关主题的年度调查。

我们决定解决的问题如下:

给出一个人的教育水平、年龄和收入,计算机可以预测到其性别么?

我跟数据集周旋,花了几个小时清洗数据,然后用Scikit Learn图找到最适合这个问题的算法。

Scikit Learn图

最后我们以大概63%的成功率结束,并不是很理想。但是机器至少可以做到猜出的概率稍大于成功率在50%的抛硬币。

看到成果会激发你们的动力,所以我建议你们一旦对怎么使用Scikit Learn有一个基本掌握,可以自己试试。

当你意识到你能够开始用机器学习解决真实生活问题时,这是一个关键的时刻。

星期三:从头开始

在尝试过不同Scikit Learn模型之后,我决定试着去彻底地写一个线性回归算法。之所以想这样做,虽因为我觉得我实在不明白计算引擎是如何运行的。

幸运地,Coursera上有关于几个算法如何执行的课程,在这个时候帮了大忙。更具体地说,它描述了线性回归的基础概念。

Coursera上有关于几个算法如何执行的课程

这绝对是最有效的机器学习技术,它迫使你去明白“引擎之下”的每一步是如何前行的。我强烈推荐你在某些时刻这样去做。

当我继续往下学的时候我计划重写更复杂的实现算法,但是我想在尝试Scikit Learn相关算法之后再做这些。

星期四:开始实现

在星期四的时候,我开始实现一些Kaggle的入门教程。Kaggle是一个机器学习竞赛的平台,你可以给那些公司或机构的发布的问题提交解决方案。

Kaggle的入门教程

我建议你在有了对机器学习一定的理论和实践理解之后再尝试Kaggle。否则,带给你比奖励更多的是沮丧。

为了提交你的方案到竞赛平台上,词袋教程会指导你每一步骤,以及一个简单而又让人兴奋的对自然语言处理过程的介绍。当我看完教程之后对自然语言处理过程有了更多的兴趣。

星期五:重回学校

星期五,我继续研究Kaggle的教程,也开始了Udacity的机器学习入门教程。虽然我还在学习中段,但是发现它真的很令人享受。

它比Coursera上面的课程要简单很多,它不会涉及到算法底层。但是实用性更高,它教你使用Scikit Learn。比起你在Coursera上面从头开始用Octave写一个算法来说,应用算法到实际世界中简单太多。

继续前行

一周的体验不仅仅是许多的乐趣,它可以帮我们意识到机器学习在社会上的用处。我学到关于它的东西越多,就看到它可以用于越多的领域中。

如果你对机器学习感兴趣,我强烈建议你花几天或晚上对它进行简单的了解。

如果你还没准备好应对繁重的素材资料,你可以选择一个至上而下的方法,尽快地在解决实际问题中学习。

来源:

https://medium.com/learning-new-stuff/machine-learning-in-a-week-a0da25d59850#.qw3zmizf9

【本文是51CTO专栏机构大数据文摘的原创译文,微信公众号“大数据文摘( id: BigDataDigest)”】

     大数据文摘二维码

戳这里,看该作者更多好文

机器学习 算法 数据
上一篇:机器学习自主解决安全威胁离我们还有多远? 下一篇:指纹、面部、语音识别技术,破解真的很简单!
评论
取消
暂无评论,快去成为第一个评论的人吧

更多资讯推荐

机器学习转化为生产力,警惕这4个常见陷阱!

几乎每个人都想在他们的业务中引入机器学习,但是这些人也遇到了一个大问题:让模型可持续发展十分困难,尤其是在云架构的基础上。medium上一位博主也指出了这个问题,并提出了将机器学习模型投入生产的4个常见陷阱。

大数据文摘 ·  1天前
500亿参数,支持103种语言:谷歌推出「全球文字翻译」模型

由于缺乏平行数据,小语种的翻译一直是一大难题。来自谷歌的研究者提出了一种能够翻译 103 种语言的大规模多语言神经机器翻译模型,在数据丰富和匮乏的语种翻译中都实现了显著的性能提升。

机器之心 ·  2天前
对于人工智能的恐惧及其5个解决方法

实施人工智能技术的IT领导人可能会感到一些恐惧,这有着充分的理由。人工智能在拥有数十年发展和应用历史的同时却有着奇怪的定位,但对于许多人来说,人工智能仍然是一种未来主义的感觉。

Kevin Casey ·  2天前
机器学习免费跑分神器:集成各大数据集,连接GitHub就能用

搞机器学习的小伙伴们,免不了要在各种数据集上,给AI模型跑分。现在,Papers with Code (那个以论文搜代码的神器) 团队,推出了自动跑分服务,名叫sotabench,以跑遍所有开源模型为己任。

栗子 鱼羊 ·  2天前
用AI实现动画角色的姿势迁移,Adobe等提出新型「木偶动画」

近日,Adobe 和康奈尔大学的研究人员提出一种基于学习的动画制作方法——基于卡通角色的少量图像样本就可生成新动画。

机器之心 ·  2天前
AI新贵登上胡润百富榜:“CV四小龙”三家创始人上榜

AI造福人类,也造富了一些创业者。最近公布的2019胡润百富榜就是窥探老板们身价的好机会。

郭一璞 ·  2天前
大数据为什么不够聪明?机器要如何走向强人工智能

大数据为什么不够聪明?比概率语言更强大的思考工具是什么?科幻电影中的强人工智能到底怎样实现?如何让智能机器像人一样思考?搞清楚因果关系才能拨云见日。

明日情报 ·  2天前
2019机器学习框架之争:与Tensorflow竞争白热化,进击的PyTorch赢在哪里?

2019年,机器学习框架之争进入了新阶段:PyTorch与TensorFlow成为最后两大玩家,PyTorch占据学术界领军地位,TensorFlow在工业界力量依然强大,两个框架都在向对方借鉴,但是都不太理想。

大数据文摘 ·  2天前
Copyright©2005-2019 51CTO.COM 版权所有 未经许可 请勿转载