首页
课程中心
专家团队
新闻中心
精彩活动
关于我们

课程中心

深度剖析Hadoop&Yarn&Spark&SparkML--企业级大数据最佳实践

  • 主讲老师:尹老师
  • 培训天数:2天
  • 公开课费用:5900元/人

课程说明

随着大数据时代的快速到来,以及大数据在生产生活中迅速应用,数据的重要性突现,数据分析与数据挖掘等技术已经被越来越多的企业所重视和应用。数据分析与数据挖掘技术涵盖了数据仓库、数据采集、数据处理、统计分析、数据挖掘、机器学习、人工智能、大数据等各种不同技术与内容,涉及内容广泛,应用价值高,前景非常广阔。本课程是尹老师多年数据仓库建设、数据分析、数据挖掘工作经验的总结和归纳,从实际业务案例为入口,使学员从理论层到实操层面系统的学习数据仓库技术,使学员深入理解数据分析。通过本课程的学习,学员即可以正确的建设数据仓库,为管理者、决策层提供数据支撑。

本课程重点讲解的大数据理念及大数据技术的应用与大数据企业级实践。

 

培训目标
经过本课程的学习培训,参训人员能够达到以下目标:
♦ 深入剖析Hadoop为代表的大数据实现技术;
♦ 具备编写HDFS代码能力;
♦ 从代码的角度剖析MapReduce执行的具体过程并具备开发MapReduce代码的能力;
♦ 具备掌握MapReduce内部运行和实现细节并改造MapReduce的能力;
♦ 具备Spark的基于内存计算的开发能力;
♦ 具备SparkML机器学习的应用开发能力。

 

培训结束,颁发中科院计算所培训中心“深度剖析Hadoop&Yarn&Spark&SparkML--企业级大数据最佳实践”课程结业证书。

 

本课程有企业内训形式,授课老师、课程内容、教学方式均依据企业的培训需求灵活设置。

 

本网站内容包括并不限于课程介绍、课程大纲、上课照片、老师介绍等等资料及信息,未经允许不得抄袭和转载。

培训对象

  • 对大数据、分布式存储、分析等感兴趣的朋友;
  • Java、PHP、C等任意一门编程语言的开发者;
  • 大型网站、电商网站等运维人员;
  • 云计算、大数据从业者;
  • 熟悉Hadoop生态体系,想了解和学习Hadoop与Spark整合在企业应用实战案例的朋友;
  • 系统架构师、系统分析师、高级程序员、资深开发人员;
  • 牵涉到大数据处理的数据中心运行、规划、设计负责人;
  • 政府机关,金融保险、移动互联网等大数据单位的负责人;
  • 高校、科研院所大数据研究人员,涉及到大数据与分布式数据处理的人员;
  • 数据仓库管理人员、建模人员,分析和开发人员、系统管理人员、数据库管理人员以及对数据仓库感兴趣的其他人员;

本课程分2天时间讲授。

第1个主题:Hadoop大数据平台概述(彻底理解Hadoop)

1、Hadoop是大数据架构的事实标准

2、Hadoop工作原理及架构

3、Hadoop生态体系介绍

4、Hadoop应用现状

5、Hadoop发展趋势

6、Hadoop优势

7、实例分享:双十一亿背后的开源技术

 

第2个主题:Hadoop分布式集群部署与运维(动手搭建Hadoop集群及运维)

1、SaltStack

2、Maven

3、禁用IPV6

4、SSH无密码登录

5、Hadoop HA部署介绍

6、Hadoop集群部署

7、Hadoop集群的监控

8、Hadoop集群的运维

 

第3个主题:HDFS大数据分布式文件系统(深入理解大数据分布式文件系统的原理与机制)

1、HDFS架构剖析

2、NameNode、DataNode、SecondaryNameNode介绍

3、NodeName高可靠性最佳实践

4、DataNode中Block划分的原理和具体存储方式

5、修改Namenode、DataNode数据存储位置

6、CLI操作HDFS

7、Java操作HDFS

8、RESTful操作HDFS

9、动态修改Hadoop的Replication数目

10、Hadoop序列化

11、Hadoop流压缩

12、Hadoop RPC

13、SequenceFile与MapFile

14、Hadoop Avro

 

第4个主题:YARN剖析(深入具备理解和使用YARN的能力)

1、YARN介绍

2、YARN的设计思想

3、YARN的核心组件

4、YARN为核心的生态系统

5、Yarn的 HA机制

6、YARN应用程序编写

7、ResourceManager深入剖析

8、ClientRMService与AdminService

9、NodeManager深入剖析

10、Container

 

第5个主题:MapReduce大数据批处理技术(深入理解MapReduce原理及培训开发MapReduce程序能力)

1、MapReduce算法剖析

2、MapReduce编程思想

3、MapReduce常用算法

4、MapReduce命令操作

5、wordcount运行过程解析

6、MapReduce如何将HDFS文件转化为Key-Value供Map解析与处理

7、Hadoop的调度器介绍

8、Combiner的使用原则

9、Partitioner的使用最佳实践

10、MapReduce排序算法剖析

11、自定义排序算法

12、Hadoop内置的分组算法

13、自定义分组算法

14、MapReduce常见场景和算法实现

15、MapReduce新旧API的区别以及如何使用API

16、MapReduce程序打包并在命令行运行

17、Hadoop Streaming

18、动态增加Hadoop的Slave节点

 

第6个主题:大数据内存计算技术介绍(深入理解Spark实现原理)

1、Scala介绍

2、Mesos介绍

3、Spark介绍

4、Spark架构剖析

5、Spark RDD计算模型解析

6、Spark开发分析

7、Spark的执行机制解析

8、Spark的调试与任务分配

9、Spark与MapReduce对比分析

10、Spark的容错机制剖析

11、Spark集群部署

12、Spark Shell

13、构建与运行Spark应用

14、Spark RDD操作剖析

15、Shark基于Spark的综合应用

16、Spark作业测试解析

17、Spark的性能调优

18、Spark生态体系剖析

19、Spark应用现状

20、Spark应用优势

21、Spark应用案例

22、Spark案例解析

 

 

第7个主题:Spark技术案例使用介绍(深入理解Spark实现原理)

1、Spark Shell

2、构建与运行Spark应用

3、Spark的性能调优

4、Spark实战案例:Spark与NoSQL整合分析数据

5、Spark实战案例:预测国际经济危机实战案例开发

 

第8个主题:SparkML机器学习概述(深入理解SparkML架构、实现原理及特征)

1、Spark ML概述

2、Spark ML发展历史

3、Spark ML算法介绍

4、RDD-based API MLlib

5、DataFrame-based API for MLlib

6、Spark ML架构剖析

7、Spark ML机器学习算法剖析

8、数据类型

9、基本统计算法

10、分类与回归

11、协同过滤

12、聚类

13、降维

14、特征提取与转换

15、频繁模式挖掘

16、评价指标

17、Spark ML编程

18、Spark ML APIs介绍

19、Spark ML机器学习算法应用实战

20、Spark ML实战案例:数据聚类分析案例剖析

 

第9个主题:SparkML Pipelines实战(深入理解SparkML Pipelines思想、原理及开发实战)

1、DataFrames

2、Pipeline组件

a)Transformers

b)Estimators

3、Pipeline组件属性

4、Pipeline工作原理

5、保存与加载Pipeline

6、案例:Pipeline工作原理

7、定制ML Pipeline

8、ML Workflow

a)Load Data

b)Extract Features

c)Train a Model

d)Evaluate the Model

e)ML Pipelines

f)Parameter Tuning

 

第10个主题:SparkML分类与回归算法实践(深入理解SparkML Classification 与Regression算法的实现原理以及开发实战)

1、Classification & Regression

a)Linear regression

b)Generalized linear regression

c)Logistic regression

d)Decision tree

e)Random forest

f)Gradient-boosted tree

g)Multilayer perceptron classifier

h)One-vs-Rest classifier (a.k.a. One-vs-All)

i)Naive Bayes

j)Survival regression

k)Isotonic regression

2、SVM

3、Linear methods

4、Decision trees

5、Tree Ensembles

a)Random Forests

b)Gradient-Boosted Trees (GBTs)

 

第11个主题:SparkML聚类算法剖析与实践(深入理解SparkML Clustering算法的实现原理及开发实战)

1、K-means Clustering

2、Bisecting k-means

3、Gaussian Mixture Model (GMM)

4、Canopy Clustering

5、Fuzzy K-means

6、Expectation Maximization

7、Mean Shift Clustering

8、Hierarchical Clustering

9、Dirichlet Process Clustering

10、Latent Dirichlet Allocation(LDA)

11、Spectral Clustering

 

第12个主题:SparkML协同过滤算法剖析与实践(深入理解SparkML Collaborative Filtering算法的实现原理及开发实战)

1、协同过滤

2、显式与隐式反馈

3、正则化参数的尺度

4、欧几里德距离(Euclidean Distance)

5、皮尔逊相关系数(Pearson Correlation Coefficient)

6、Cosine 相似度(Cosine Similarity)

7、Tanimoto 系数(Tanimoto Coefficient)

 

第13个主题:SparkML特征提取、转化与选择算法剖析与实践(深入理解SparkML Extracting, transforming and selecting features算法的实现原理及开发实战)

1、特征提取

a)TF-IDF

b)Word2Vec

c)CountVectorizer

2、特征转换

a)Tokenizer

b)StopWordsRemover

c)n-gram

d)Binarizer

e)PCA

f)PolynomialExpansion

g)Discrete Cosine Transform (DCT)

h)StringIndexer

i)IndexToString

j)OneHotEncoder

k)VectorIndexer

l)Normalizer

m)StandardScaler

n)MinMaxScaler

o)MaxAbsScaler

p)Bucketizer

q)ElementwiseProduct

r)SQLTransformer

s)VectorAssembler

t)QuantileDiscretizer

3、特征选择

a)VectorSlicer

b)RFormula

c)ChiSqSelector

汇款、微信转帐

汇款信息:

单位名称:北京市海淀区中科院计算所职业技能培训学校

开户行:工行海淀西区支行

账号:0200 0045 1920 0043 667

开户银行代码:1021 0000 0458

 

微信转账:

    步骤一:打开微信,扫描二微码付款时,点击打开微信右下角里的“发现”,在列表界面有一个“扫一扫”选项,点击打开“扫一扫”(如下图):

    步骤二:点击打开“扫一扫”后,会出现一个扫描框,将中科院计算所培训中心二维码/条码放入框内,即可自动扫描,并显示支付信息,输入付款金额。

                                                                                                        

    (中科院计算所培训中心二维码)

 

    步骤三:点击 “添加付款备注”,填写付款人姓名和单位全称,所有信息核对无误后,点击“确认付款”,完成支付。

 

                

 

  • 注意:步骤三是为了尽快确认您的培训费用是否到帐,方便为您查帐,所以一定要把付款人姓名和单位名称填写完整,如果姓名和单位名称超过20个汉字,单位名称可以填写简称。

京公网安备 11010802025851号

 京ICP备14030124号-1  

免费电话

010-82661221

微信咨询

微信客服

在线报名

返回顶部