前置视频课程 | |
---|---|
Java基础教程 | 1. Java简介,包括跨平台、虚拟机、JDK等; 2. Java编程基础,包括函数、循环语句、变量等;3. Java高级特性,包括类、继承、多态等;4. Java数据集合,包括List、Map、Set等介绍;5. 自动化项目管理工具Maven; 6. Java小测验 |
Linux基础教程 | 1. Linux的安装和使用;2. Linux文件系统;3. Linux用户和进程管理;4. Shell和网络基础;5. git工具介绍;6. Linux小测验 |
光环大数据课程总体介绍 | 1. 大数据学习方法;2. 光环大数据课程规划;3. 光环大数据实验环境准备 |
22天视频课程 | ||
---|---|---|
第一阶段:Hadoop生态体系 | Hadoop环境搭建 | 大数据概论、Hadoop发展历程、Linux常用指令、Hadoop伪分布式安装、Hadoop集群环境搭建、Hadoop架构 |
HDFS分布式文件系统 (含项目实战) | HDFS简介、优缺点、架构(主节点NameNode、从节点DataNode的解析) 、核心设计(数据块、数据副本的存放策略、安全模式、负载均衡、机架感应等)HDFS操作(命令行接口、Java接口)、HDFS运行机制(RPC协议、HA机制、Federation机制)、HDFS Java API实战 | |
MapReduce与Yarn | MapReduce架构、MapReduce核心设计、Yarn架构、Yarn核心原理 | |
分布式协调服Zookeeper、MapReduce实战(含项目实战) | Zookeeper简介与核心原理、MapReduce实战项目简介、MapReduce实战、项目模块开发、核心点讲解、总结 | |
SQL on Hadoop专题( Hive等,含Sqoop)(含项目实战) | 主流SQL on Hadoop简介、Hive核心原理、Impala核心原理、 Presto核心原理、Hive实战 | |
NoSQL专题(含HBase) | 主流NoSQL简介、HBase核心原理、Cassandra核心原理、MongoDB核心原理、HBase实战、数据分析项目实战简介、数据分析项目实战开发 | |
Hadoop企业项目实战 | 项目背景、开发需求、 项目架构、核心点讲解、数据展示、共性问题答疑 、项目总结 | |
第二阶段:Spark生态体系 | Storm | 流处理、部署配置、平台架构、应用场景及与同类产品的优缺点、工作原理、运行时系统实现的逻辑、客户端API与代码结构、Storm Spout、Storm Bolt、Storm Topology编程 |
Flume-NG海量日志采集系统 | 概述、部署配置、分布式架构、应用场景及与同类产品的优缺点、工作原理、运行时系统实现的逻辑、读取日志文件存储在HDFS、作为Producer把日志数据收集到Kafka、作为Consumer读取Kafka中的数据并传输至Spark Streaming、与Spark其他部分的集成应用 |
|
Kafka分布式发布订阅消息系统 | 概述、部署与配置、分布式架构、应用场景及与同类产品的优缺点、工作原理、运行时系统实现的逻辑、与Spark其他部分的集成应用 | |
Spark环境搭建 | 基础知识、生态系统及发展历程概述、实时数据处理模式及优势、内存计算编程框架、部署配置(包括Spark Standalone集群、Spark on Yarn、开发环境、Spark单机、Spark集群)、Spark客户端编程依赖的支撑软件基础、代码结构(代码结构及代码包组成、编程模式、与SQL整合、客户端程序包的结构)、运行架构及过程剖析、编码模型、监控管理和性能调优、与Kafka的集成应用 | |
Scala开发语言 | 基础语法、变量、类、条件控制、循环、函数、面向对象的编程和继承、Scala 语言的函数式编程基础知识、集合操作、模式匹配、Scala高级数据结构、Map 与Tuple 等操作技巧 | |
Spark Core | 基础原理、核心代码剖析、运行架构 | |
Spark RDD | 编程模型、内存弹性分布式数据集的工作原理和机制、Spark RDD transform、滑动窗口、foreachRDD性能优化、持久化、checkpoint、容错与事务、与Spark SQL整合使用 | |
Spark SQL | 基础原理、Spark与SQL的整合、内置函数、开窗函数、实时数据仓库的实现原理机制、核心代码剖析、客户端开发包API、客户端开发应用基础 | |
Spark Streaming | 基础原理、与Storm在流处理方面的比较、与Spark交互的实现机制、核心代码剖析、客户端编程实践 | |
Spark MLlib数据分析挖掘程序 | 数据挖掘与机器学习基础知识,以及机器学习案例 Mahout / Spark MLib 并行挖掘平台中的关联规则与预测、协同过滤与推荐模型的原理和算法实现以及推荐分析模块的深度剖析 分析算法、关联规则挖掘算法、频繁模式挖掘算法的MapReduce并行实现及其应用开发;回归预测和局部加权线性回归预测算法、最近邻 KNN 预测分析的算法、时间序列模型的预测分析算法、协同过滤算法的 MapReduce实现和 Spark 实现技术应用、决策树分类分析挖掘算法、逻辑回归分类分析挖掘算法、贝叶斯分类分析挖掘算法 |
|
SparkR数据统计分析 | 基础原理、R语言基础、R与Spark的交互机制、核心代码剖析 客户端编码应用开发 | |
Spark GraphX图数据处理 | 基础原理、核心代码剖析、客户端API介绍、基于Spark GraphX实现图数据的分析程序开发开发 |
16天面授课程 | ||
---|---|---|
第一阶段:Hadoop生态体系(6天) | 大数据概述(0.5天) | 大数据概论、大数据技术体系(按照六层架构介绍:数据收集、数据存储、资源管理、计算引擎、数据分析以及可视化)、Hadoop发展历程、Hadoop生态系统概述 |
分布式数据收集系统:Sqoop与Flume(0.5天) | 理论部分:结构化数据收集Sqoop:背景、架构、原理以及使用;非结构化(日志)数据收集系统Flume:背景、架构、原理及使用 实战部分:利用Flume从指定目录中收集数据到HDFS;利用Sqoop将MySQL表中数据写入HDFS |
|
分布式消息队列:Kafka(0.5天) | 理论部分:概述 、基本架构与工作原理、应用场景以及经典的架构组合等 实战部分:搭建Kafka集群;如何编写Producer将数据写入Kafka;如何编写Consumer从Kafka中读取数据 |
|
分布式存储系统:文件系统HDFS(0.5天) | 理论部分:HDFS简介、优缺点、架构(主节点NameNode、从节点DataNode、journal node的解析) 、核心设计(数据块、数据副本的存放策略、安全模式、负载均衡、机架感应等)、HDFS操作(命令行接口、Java接口) 实战部分:搭建HDFS集群;使用NameNode Web UI和HDFS Shell;利用Java编写程序从HDFS中读数据;利用Java编写程序将数据写入HDFS中;利用Java删除HDFS上的文件、目录 |
|
分布式存储系统:分布式数据库HBase(1天) | 理论部分:HBase简介、优缺点、架构以及HBase API使用等 实战部分:搭建Hbase集群;使用Hbase Web UI;使用HBase Shell;利用Java编写程序在hbase中创建表;利用Java编写程序向hbase表中写入和读取数据;小案例:用户画像系统、网络爬虫 |
|
分布式分析引擎:Hive基础(1天) | 理论部分:Hive背景、架构、MapReduce简介、HQL的DML和DDL语法等 实战部分:运行第一个MapReduce程序:WordCount;Hive环境搭建;利用Hive创建表,并进行查询;Hive创建ORC与Parquet表并查询 |
|
分布式分析引擎:Hive进阶(1天) | 理论部分:Hive内部原理、多计算引擎(Tez与Spark)、Hive创建ORC/Parquet表、Hive调优 实战部分:程序方式访问Hive、Hive调优演示 |
|
交互式查询引擎Presto(1天) | 理论部分:Presto基本架构、Presto与Hive对比、Presto基本使用
实战部分:Presto集群搭建;Presto使用方式;Presto与Hive性能对比 |
|
Hadoop小测试(包括选择题、简单题和编程题三部分) | ||
第二阶段:Spark生态体系(5天) | Spark 基础(1天) | 理论部分:Scala语言简介(建议所有实例采用Java);Spark基础原理与运行架构、Spark部署方式 实战部分:Spark开发环境搭建、使用Spark Web UI、如何将Spark程序运行到YARN上 |
Spark 程序设计(1天) | 理论部分:Spark编程模型、内存弹性分布式数据集的工作原理和机制、Spark RDD transform、 持久化、 checkpoint、容错与性能优化 实战部分:如何利用intellij idea开发一个spark程序并运行到集群中;如何利用spark设计电影受众分析程序 |
|
Spark SQL(1天) | 理论部分:基础原理、DataFrame与Dataset、Spark SQL主要函数介绍 实战部分:如何使用 DataFrame与Dataset开发一个wordcount程序;如何使用DataFrame与Dataset设计电影受众分析程序 |
|
Spark Streaming 基础(1天) | 理论部分:流式计算基础、spark streaming基础原理、基础API介绍(包括map、filter、flatMap、foreachRDD、saveAsTextFile等)和高级API介绍(window、 transform和mapWithState)、Redis介绍 实战部分:利用Spark Streaming读取HDFS中的数据,经统计(window统计)后写入HDFS;利用Spark Streaming读取HDFS中的数据,经统计后写入Redis和HBase;利用mapWithState实现wordcount |
|
Spark Streaming进阶(1天) | 理论部分:保存kafka offset并恢复、spark streaming容错机制、spark streaming调优方法、structured streaming原理及关键API 实战部分:利用Spark Streaming+kafka+redis实现“用户手机app行为分析系统”;实现streuctured streaming版本的wordcount |
|
Spark MLlib数据分析挖掘程序(1天) | 数据挖掘与机器学习基础知识,以及机器学习案例 Spark MLib并行挖掘平台中的关联规则与预测、协同过滤与推荐模型的原理和算法实现、以及推荐分析模块的深度剖析、分析算法、关联规则挖掘算法、频繁模式挖掘算法的MapReduce并行实现及其应用开发;回归预测和局部加权线性回归预测算法、最近邻 KNN 预测分析的算法、时间序列模型的预测分析算法、协同过滤算法的 MapReduce实现和 Spark 实现技术应用、决策树分类分析挖掘算法、逻辑回归分类分析挖掘算法、贝叶斯分类分析挖掘算法 |
|
Spark小测试(包括选择题、简单题和编程题三部分) | ||
第三阶段:企业项目实战(4天) | Spark企业项目实战(2天) | 【案例1:用户行为实时分析系统】 项目背景、开发需求、 项目架构、核心点讲解、数据展示、共性问题答疑 、项目总结 主要架构:Kafka+Spark Streaming+MySQL 【案例2:信用卡欺诈分析系统】 项目背景、开发需求、 项目架构、核心点讲解、数据展示、共性问题答疑 、项目总结 主要架构:HDFS+Spark Core 【实践部分】关键代码讲解与演示 |
Hadoop企业项目实战(2天) | 【案例3: “双十一”大数据日志分析系统】 项目背景、开发需求、 项目架构、核心点讲解、数据展示、共性问题答疑 、项目总结 【案例4: 用户画像系统】 项目背景、开发需求、 项目架构、核心点讲解、数据展示、共性问题答疑 、项目总结 【实践部分】关键代码讲解与演示 |
|
总结 | 大数据职位面试培训 | 讲解常见的大数据面试题目 |
大数据综合测试(仅包含编程题目) |