课程说明
随着大数据时代的快速到来,以及大数据在生产生活中迅速应用,数据的重要性突现,数据分析与数据挖掘等技术已经被越来越多的企业所重视和应用。数据分析与数据挖掘技术涵盖了数据仓库、数据采集、数据处理、统计分析、数据挖掘、机器学习、人工智能、大数据等各种不同技术与内容,涉及内容广泛,应用价值高,前景非常广阔。本课程是尹老师多年数据仓库建设、数据分析、数据挖掘工作经验的总结和归纳,从实际业务案例为入口,使学员从理论层到实操层面系统的学习数据仓库技术,使学员深入理解数据分析。通过本课程的学习,学员即可以正确的建设数据仓库,为管理者、决策层提供数据支撑。
本课程重点讲解的大数据理念及大数据技术的应用与大数据企业级实践。
培训目标
经过本课程的学习培训,参训人员能够达到以下目标:
♦ 深入剖析Hadoop为代表的大数据实现技术;
♦ 具备编写HDFS代码能力;
♦ 从代码的角度剖析MapReduce执行的具体过程并具备开发MapReduce代码的能力;
♦ 具备掌握MapReduce内部运行和实现细节并改造MapReduce的能力;
♦ 具备Spark的基于内存计算的开发能力;
♦ 具备SparkML机器学习的应用开发能力。
培训结束,颁发中科院计算所培训中心“深度剖析Hadoop&Yarn&Spark&SparkML--企业级大数据最佳实践”课程结业证书。
培训对象
本课程分2天时间讲授。
第1个主题:Hadoop大数据平台概述(彻底理解Hadoop)
1、Hadoop是大数据架构的事实标准
2、Hadoop工作原理及架构
3、Hadoop生态体系介绍
4、Hadoop应用现状
5、Hadoop发展趋势
6、Hadoop优势
7、实例分享:双十一亿背后的开源技术
第2个主题:Hadoop分布式集群部署与运维(动手搭建Hadoop集群及运维)
1、SaltStack
2、Maven
3、禁用IPV6
4、SSH无密码登录
5、Hadoop HA部署介绍
6、Hadoop集群部署
7、Hadoop集群的监控
8、Hadoop集群的运维
第3个主题:HDFS大数据分布式文件系统(深入理解大数据分布式文件系统的原理与机制)
1、HDFS架构剖析
2、NameNode、DataNode、SecondaryNameNode介绍
3、NodeName高可靠性最佳实践
4、DataNode中Block划分的原理和具体存储方式
5、修改Namenode、DataNode数据存储位置
6、CLI操作HDFS
7、Java操作HDFS
8、RESTful操作HDFS
9、动态修改Hadoop的Replication数目
10、Hadoop序列化
11、Hadoop流压缩
12、Hadoop RPC
13、SequenceFile与MapFile
14、Hadoop Avro
第4个主题:YARN剖析(深入具备理解和使用YARN的能力)
1、YARN介绍
2、YARN的设计思想
3、YARN的核心组件
4、YARN为核心的生态系统
5、Yarn的 HA机制
6、YARN应用程序编写
7、ResourceManager深入剖析
8、ClientRMService与AdminService
9、NodeManager深入剖析
10、Container
第5个主题:MapReduce大数据批处理技术(深入理解MapReduce原理及培训开发MapReduce程序能力)
1、MapReduce算法剖析
2、MapReduce编程思想
3、MapReduce常用算法
4、MapReduce命令操作
5、wordcount运行过程解析
6、MapReduce如何将HDFS文件转化为Key-Value供Map解析与处理
7、Hadoop的调度器介绍
8、Combiner的使用原则
9、Partitioner的使用最佳实践
10、MapReduce排序算法剖析
11、自定义排序算法
12、Hadoop内置的分组算法
13、自定义分组算法
14、MapReduce常见场景和算法实现
15、MapReduce新旧API的区别以及如何使用API
16、MapReduce程序打包并在命令行运行
17、Hadoop Streaming
18、动态增加Hadoop的Slave节点
第6个主题:大数据内存计算技术介绍(深入理解Spark实现原理)
1、Scala介绍
2、Mesos介绍
3、Spark介绍
4、Spark架构剖析
5、Spark RDD计算模型解析
6、Spark开发分析
7、Spark的执行机制解析
8、Spark的调试与任务分配
9、Spark与MapReduce对比分析
10、Spark的容错机制剖析
11、Spark集群部署
12、Spark Shell
13、构建与运行Spark应用
14、Spark RDD操作剖析
15、Shark基于Spark的综合应用
16、Spark作业测试解析
17、Spark的性能调优
18、Spark生态体系剖析
19、Spark应用现状
20、Spark应用优势
21、Spark应用案例
22、Spark案例解析
第7个主题:Spark技术案例使用介绍(深入理解Spark实现原理)
1、Spark Shell
2、构建与运行Spark应用
3、Spark的性能调优
4、Spark实战案例:Spark与NoSQL整合分析数据
5、Spark实战案例:预测国际经济危机实战案例开发
第8个主题:SparkML机器学习概述(深入理解SparkML架构、实现原理及特征)
1、Spark ML概述
2、Spark ML发展历史
3、Spark ML算法介绍
4、RDD-based API MLlib
5、DataFrame-based API for MLlib
6、Spark ML架构剖析
7、Spark ML机器学习算法剖析
8、数据类型
9、基本统计算法
10、分类与回归
11、协同过滤
12、聚类
13、降维
14、特征提取与转换
15、频繁模式挖掘
16、评价指标
17、Spark ML编程
18、Spark ML APIs介绍
19、Spark ML机器学习算法应用实战
20、Spark ML实战案例:数据聚类分析案例剖析
第9个主题:SparkML Pipelines实战(深入理解SparkML Pipelines思想、原理及开发实战)
1、DataFrames
2、Pipeline组件
a)Transformers
b)Estimators
3、Pipeline组件属性
4、Pipeline工作原理
5、保存与加载Pipeline
6、案例:Pipeline工作原理
7、定制ML Pipeline
8、ML Workflow
a)Load Data
b)Extract Features
c)Train a Model
d)Evaluate the Model
e)ML Pipelines
f)Parameter Tuning
第10个主题:SparkML分类与回归算法实践(深入理解SparkML Classification 与Regression算法的实现原理以及开发实战)
1、Classification & Regression
a)Linear regression
b)Generalized linear regression
c)Logistic regression
d)Decision tree
e)Random forest
f)Gradient-boosted tree
g)Multilayer perceptron classifier
h)One-vs-Rest classifier (a.k.a. One-vs-All)
i)Naive Bayes
j)Survival regression
k)Isotonic regression
2、SVM
3、Linear methods
4、Decision trees
5、Tree Ensembles
a)Random Forests
b)Gradient-Boosted Trees (GBTs)
第11个主题:SparkML聚类算法剖析与实践(深入理解SparkML Clustering算法的实现原理及开发实战)
1、K-means Clustering
2、Bisecting k-means
3、Gaussian Mixture Model (GMM)
4、Canopy Clustering
5、Fuzzy K-means
6、Expectation Maximization
7、Mean Shift Clustering
8、Hierarchical Clustering
9、Dirichlet Process Clustering
10、Latent Dirichlet Allocation(LDA)
11、Spectral Clustering
第12个主题:SparkML协同过滤算法剖析与实践(深入理解SparkML Collaborative Filtering算法的实现原理及开发实战)
1、协同过滤
2、显式与隐式反馈
3、正则化参数的尺度
4、欧几里德距离(Euclidean Distance)
5、皮尔逊相关系数(Pearson Correlation Coefficient)
6、Cosine 相似度(Cosine Similarity)
7、Tanimoto 系数(Tanimoto Coefficient)
第13个主题:SparkML特征提取、转化与选择算法剖析与实践(深入理解SparkML Extracting, transforming and selecting features算法的实现原理及开发实战)
1、特征提取
a)TF-IDF
b)Word2Vec
c)CountVectorizer
2、特征转换
a)Tokenizer
b)StopWordsRemover
c)n-gram
d)Binarizer
e)PCA
f)PolynomialExpansion
g)Discrete Cosine Transform (DCT)
h)StringIndexer
i)IndexToString
j)OneHotEncoder
k)VectorIndexer
l)Normalizer
m)StandardScaler
n)MinMaxScaler
o)MaxAbsScaler
p)Bucketizer
q)ElementwiseProduct
r)SQLTransformer
s)VectorAssembler
t)QuantileDiscretizer
3、特征选择
a)VectorSlicer
b)RFormula
c)ChiSqSelector
汇款、微信转帐
汇款信息:
单位名称:北京市海淀区中科院计算所职业技能培训学校
开户行:工行海淀西区支行
账号:0200 0045 1920 0043 667
开户银行代码:1021 0000 0458
微信转账:
步骤一:打开微信,扫描二微码付款时,点击打开微信右下角里的“发现”,在列表界面有一个“扫一扫”选项,点击打开“扫一扫”(如下图):
步骤二:点击打开“扫一扫”后,会出现一个扫描框,将中科院计算所培训中心二维码/条码放入框内,即可自动扫描,并显示支付信息,输入付款金额。
(中科院计算所培训中心二维码)
步骤三:点击 “添加付款备注”,填写付款人姓名和单位全称,所有信息核对无误后,点击“确认付款”,完成支付。