7

Python轻松胜任Spark大数据【PySpark 大数据处理及机器学习】课件资料

上传者:wx58a52efe97f6b

发布时间:2018-03-17 22:02:29

大小:19 M

简介:        自2013年开始出现的大数据概念及伴随出现的以Hadoop,Spark为代表的分布式大数据处理技术,大数据一词让人耳熟能详。大部分框架使用类Java语言实现,对于Python学员,PySpark是使用Python作为开发语言的程序员的福音,借助PySpark,Python开发人员可以轻松胜任大数据任务,冲击高薪。        本课程主要讲解Spark技术,借助Spark对外提供的Python接口,使用Python语言开发。涉及到Spark内核原理、Spark基础知识及应用、Spark基于DataFrame的Sql应用、Spark处理流数据,图计算,机器学习及深度学习等内容。由浅到深的带大家深入学习大数据领域最火的项目Spark。帮助大家进入大数据领域,抓住大数据浪潮的尾巴。    软件版本:     Hadoop2.7.3Spark2.3.0Scala2.11.8Python2.7.12Jdk-8u101-linux-x64Docker 1.12.6Apache-hive-2.3.2-binMysql-5.5.45-linux2.6-x86_64Mysql-connector-java-5.1.37-bin   内容涉及:   pyspark 基础模块pyspark.sql 模块pyspark.streaming 流数据处理模块pyspark.ml 基于DataFrame的机器学习模块pyspark.mllib package 基于RDD的机器学习模块中间还会涉及到云计算中的docker容器技术,课程的学习环境就是使用Docker三个容器搭建的分布式环境pyspark中Numpy、Pandas、Scikit-learn的互操作和相互对比

大数据 PythonSpark 机器学习
下 载 15人已下载
分享