13

大数据微职位:大音希声大象无形-数据科学与数学基础、机器学习、Spark MLlib课件资料

上传者:mengshuo

发布时间:2016-10-21 16:53:34

大小:7 K

简介:事物的原理和规律隐藏在纷繁杂乱的数据中,如何从数据中将他们挖掘出来服务生产生活,大数据的核心价值体现在此。本课程我们一起学习数据科学的数学基础、机器学习的算法。因为Spark 正在取代 MapReduce 成为大数据平台数据处理的全新引擎,它也使得在大数据环境下高效的运用数据科学成为可能,所以我们着重介绍基于 Spark 的机器学习的实现,把握大数据的发展趋势,步入数据科学的殿堂。 第十四周预期达到效果:掌握数据科学的数据基础,掌握统计学基础知识。 第十五周预期达到效果:1. 掌握机器学习理论;2. 掌握推荐系统和决策系统原理 第十六周预期达到效果:1. 掌握 Spark Mllib 组件架构;2. 利用 Spark Mllib 实现推荐器;3. 学会引用常用机器学习算法。51CTO学院大数据工程师微职位:http://edu.51cto.com/training/training_id-44.html大数据知识体系0 九层之台起于累土:大数据的基础软件平台(2周)http://edu.51cto.com/course/course_id-7306.html    Linux 操作系统基础关系型数据库理论与 MySQL 数据库1 接一连二 三生万物:Hadoop 的核心组件(2周)http://edu.51cto.com/course/course_id-7307.html    海量数据的存储:Hadoop 分布式文件系统 - HDFS海量数据的处理:Hadoop 分布式计算框架 - MapReduceHadoop 集群规划与搭建Hadoop 集群的高级配置2 泥沙俱下 披沙拣金 - 原始数据的查询与分析(2周)http://edu.51cto.com/course/course_id-7311.html     Hadoop 集群数据查询与分析:HiveHadoop 集群数据的查询与分析 ImpalaHadoop 集群数据的查询与分析 Pig3 增删改查样样精通:NoSQL 数据库之 Hbase(2周)http://edu.51cto.com/course/course_id-8257.html   分布式数据库的理论基础HBase 基础HBase 体系结构和读写流程HBase优化和管理4 八十一难 七十二变:复杂需求有编程应对(3周)http://edu.51cto.com/course/course_id-7382.html   Python 语言基础Spark 基础Spark 编程及性能优化Spark 机器学习案例Spark 2.0 新特性: RDD DataFrame 和 Dataset完善海量数据的存储与计算: Hadoop 生态系统的其它组件5 快马加鞭抢占先机:大数据平台的提速(2周)http://edu.51cto.com/course/course_id-7396.html   大数据平台的索引技术流式计算6 大音希声 大象无形:大数据的皇冠数据科学(3周)http://edu.51cto.com/course/course_id-7401.html   数据科学概述与数学基础数据科学进阶1:机器学习的理论基础数据科学进阶2:机器学习工具 Spark MLlib 7 学以致用:行业案例及项目精讲(2周)http://edu.51cto.com/course/course_id-7403.html   Cloudera 提供的客户案例分享(金融、医疗、电商、制造业)项目精讲-1:Hadoop 电商公司精准营销案例项目精讲-2: Airbnb 民宿服务型互联网应用 Spark 流式计算案例项目精讲-3: 百度 大规模多媒体数据 Spark 处理平台8剑走偏锋:大数据平台的安全(选修)http://edu.51cto.com/course/course_id-7405.html    Hadoop 集群的安全机制9统计利器:R 语言基础 (选修)http://edu.51cto.com/course/course_id-7406.html   R 语言背景知识R 语言基础用 R 语言做数据分析 项目介绍项目1:Hadoop 电商公司精准营销案例公 司传统业务在 MySQL 平台,为客户提供360的画像,公司决定利用非结构化数据:网站后天日志分析用户操作行为,为精准营销准备数据。本项目通过传统业务迁移、关联非结构化数 据与结构化数据、优化集群到如何利用Spark实现精准营销算法及可视化,为大家总结大数据全知识体系的内容。项目2:Airbnb 民宿服务型互联网应用 Spark 流式计算案例Spark组 件的Streaming是一个接近实时的流计算框架。它允许工程师和数据科学家轻松利用Spark Streaming和SQL来获得实时数据洞察能力并构建实时反馈循环。在其上构建了多个关键任务应用程序。 在这次项目中,我们将首先概述Spark Stream,然后讨论几个生产用例,例如数据仓库的实时摄取管道,以及计算在线数据产品的派生数据。我们将讨论Stream如何集成到我们的大数据生态 系统,如Kafka,HBase和Hive,并分享一系列的经验教训。 其中包括扩展多个Streaming作业,同时使用单个Kafka集群,管理流式作业的生命周期和检查点,以及将HBase用作状态存储的最佳实践。项目3:互联网搜索公司(百度)的多媒体流式处理框架随 着移动时代的到来,来自智能手机用户的大量多媒体文件在网上发布。我们现在迫切需要一个高效的分布式平台来处理和分析这些多媒体数据。然而,现有方法通常 遭受与遗留多媒体理解实现的兼容性问题;由于多媒体数据的大文件大小导致的存储器管理问题;和有限平台数据格式支持。通过基于二进制数据管道的执行,提出 了基于流的实现,以及灵活的I / O类型以支持各种应用场景。在本项目中我们将演示如何在公司的图像货币化产品中使用这个框架,以加快我们的模型训练流程,并提高我们的CTR预测。 51CTO学院大数据工程师微职位:http://edu.51cto.com/training/training_id-44.html 

hbase hadoop 大数据
下 载 0人已下载
分享