业内独有实战课程模式

教你高薪、好用、不过时的技术

前置视频课程
Java基础教程	1. Java简介，包括跨平台、虚拟机、JDK等； 2. Java编程基础，包括函数、循环语句、变量等；3. Java高级特性，包括类、继承、多态等；4. Java数据集合，包括List、Map、Set等介绍；5. 自动化项目管理工具Maven； 6. Java小测验
Linux基础教程	1. Linux的安装和使用；2. Linux文件系统；3. Linux用户和进程管理；4. Shell和网络基础；5. git工具介绍；6. Linux小测验
光环大数据课程总体介绍	1. 大数据学习方法；2. 光环大数据课程规划；3. 光环大数据实验环境准备

22天视频课程
第一阶段：Hadoop生态体系	Hadoop环境搭建	大数据概论、Hadoop发展历程、Linux常用指令、Hadoop伪分布式安装、Hadoop集群环境搭建、Hadoop架构
	HDFS分布式文件系统（含项目实战）	HDFS简介、优缺点、架构（主节点NameNode、从节点DataNode的解析）、核心设计（数据块、数据副本的存放策略、安全模式、负载均衡、机架感应等）HDFS操作（命令行接口、Java接口）、HDFS运行机制（RPC协议、HA机制、Federation机制）、HDFS Java API实战
	MapReduce与Yarn	MapReduce架构、MapReduce核心设计、Yarn架构、Yarn核心原理
	分布式协调服Zookeeper、MapReduce实战（含项目实战）	Zookeeper简介与核心原理、MapReduce实战项目简介、MapReduce实战、项目模块开发、核心点讲解、总结
	SQL on Hadoop专题( Hive等，含Sqoop)（含项目实战）	主流SQL on Hadoop简介、Hive核心原理、Impala核心原理、 Presto核心原理、Hive实战
	NoSQL专题（含HBase）	主流NoSQL简介、HBase核心原理、Cassandra核心原理、MongoDB核心原理、HBase实战、数据分析项目实战简介、数据分析项目实战开发
	Hadoop企业项目实战	项目背景、开发需求、项目架构、核心点讲解、数据展示、共性问题答疑、项目总结
第二阶段：Spark生态体系	Storm	流处理、部署配置、平台架构、应用场景及与同类产品的优缺点、工作原理、运行时系统实现的逻辑、客户端API与代码结构、Storm Spout、Storm Bolt、Storm Topology编程
	Flume-NG海量日志采集系统	概述、部署配置、分布式架构、应用场景及与同类产品的优缺点、工作原理、运行时系统实现的逻辑、读取日志文件存储在HDFS、作为Producer把日志数据收集到Kafka、作为Consumer读取Kafka中的数据并传输至Spark Streaming、与Spark其他部分的集成应用
	Kafka分布式发布订阅消息系统	概述、部署与配置、分布式架构、应用场景及与同类产品的优缺点、工作原理、运行时系统实现的逻辑、与Spark其他部分的集成应用
	Spark环境搭建	基础知识、生态系统及发展历程概述、实时数据处理模式及优势、内存计算编程框架、部署配置（包括Spark Standalone集群、Spark on Yarn、开发环境、Spark单机、Spark集群）、Spark客户端编程依赖的支撑软件基础、代码结构（代码结构及代码包组成、编程模式、与SQL整合、客户端程序包的结构）、运行架构及过程剖析、编码模型、监控管理和性能调优、与Kafka的集成应用
	Scala开发语言	基础语法、变量、类、条件控制、循环、函数、面向对象的编程和继承、Scala 语言的函数式编程基础知识、集合操作、模式匹配、Scala高级数据结构、Map 与Tuple 等操作技巧
	Spark Core	基础原理、核心代码剖析、运行架构
	Spark RDD	编程模型、内存弹性分布式数据集的工作原理和机制、Spark RDD transform、滑动窗口、foreachRDD性能优化、持久化、checkpoint、容错与事务、与Spark SQL整合使用
	Spark SQL	基础原理、Spark与SQL的整合、内置函数、开窗函数、实时数据仓库的实现原理机制、核心代码剖析、客户端开发包API、客户端开发应用基础
	Spark Streaming	基础原理、与Storm在流处理方面的比较、与Spark交互的实现机制、核心代码剖析、客户端编程实践
	Spark MLlib数据分析挖掘程序	数据挖掘与机器学习基础知识，以及机器学习案例 Mahout / Spark MLib 并行挖掘平台中的关联规则与预测、协同过滤与推荐模型的原理和算法实现以及推荐分析模块的深度剖析分析算法、关联规则挖掘算法、频繁模式挖掘算法的MapReduce并行实现及其应用开发；回归预测和局部加权线性回归预测算法、最近邻 KNN 预测分析的算法、时间序列模型的预测分析算法、协同过滤算法的 MapReduce实现和 Spark 实现技术应用、决策树分类分析挖掘算法、逻辑回归分类分析挖掘算法、贝叶斯分类分析挖掘算法
	SparkR数据统计分析	基础原理、R语言基础、R与Spark的交互机制、核心代码剖析客户端编码应用开发
	Spark GraphX图数据处理	基础原理、核心代码剖析、客户端API介绍、基于Spark GraphX实现图数据的分析程序开发开发

16天面授课程
第一阶段：Hadoop生态体系（6天）	大数据概述（0.5天）	大数据概论、大数据技术体系（按照六层架构介绍：数据收集、数据存储、资源管理、计算引擎、数据分析以及可视化）、Hadoop发展历程、Hadoop生态系统概述
	分布式数据收集系统：Sqoop与Flume（0.5天）	理论部分：结构化数据收集Sqoop：背景、架构、原理以及使用;非结构化（日志）数据收集系统Flume：背景、架构、原理及使用实战部分：利用Flume从指定目录中收集数据到HDFS;利用Sqoop将MySQL表中数据写入HDFS
	分布式消息队列：Kafka（0.5天）	理论部分：概述、基本架构与工作原理、应用场景以及经典的架构组合等实战部分：搭建Kafka集群；如何编写Producer将数据写入Kafka；如何编写Consumer从Kafka中读取数据
	分布式存储系统：文件系统HDFS（0.5天）	理论部分：HDFS简介、优缺点、架构（主节点NameNode、从节点DataNode、journal node的解析）、核心设计（数据块、数据副本的存放策略、安全模式、负载均衡、机架感应等）、HDFS操作（命令行接口、Java接口）实战部分：搭建HDFS集群；使用NameNode Web UI和HDFS Shell；利用Java编写程序从HDFS中读数据；利用Java编写程序将数据写入HDFS中；利用Java删除HDFS上的文件、目录
	分布式存储系统：分布式数据库HBase（1天）	理论部分：HBase简介、优缺点、架构以及HBase API使用等实战部分：搭建Hbase集群；使用Hbase Web UI；使用HBase Shell；利用Java编写程序在hbase中创建表；利用Java编写程序向hbase表中写入和读取数据；小案例：用户画像系统、网络爬虫
	分布式分析引擎：Hive基础（1天）	理论部分：Hive背景、架构、MapReduce简介、HQL的DML和DDL语法等实战部分：运行第一个MapReduce程序：WordCount；Hive环境搭建；利用Hive创建表，并进行查询；Hive创建ORC与Parquet表并查询
	分布式分析引擎：Hive进阶（1天）	理论部分：Hive内部原理、多计算引擎（Tez与Spark）、Hive创建ORC/Parquet表、Hive调优实战部分：程序方式访问Hive、Hive调优演示
	交互式查询引擎Presto（1天）	理论部分：Presto基本架构、Presto与Hive对比、Presto基本使用实战部分：Presto集群搭建；Presto使用方式；Presto与Hive性能对比
	Hadoop小测试（包括选择题、简单题和编程题三部分）
第二阶段：Spark生态体系（5天）	Spark 基础（1天）	理论部分：Scala语言简介（建议所有实例采用Java）；Spark基础原理与运行架构、Spark部署方式实战部分：Spark开发环境搭建、使用Spark Web UI、如何将Spark程序运行到YARN上
	Spark 程序设计（1天）	理论部分：Spark编程模型、内存弹性分布式数据集的工作原理和机制、Spark RDD transform、持久化、 checkpoint、容错与性能优化实战部分：如何利用intellij idea开发一个spark程序并运行到集群中；如何利用spark设计电影受众分析程序
	Spark SQL（1天）	理论部分：基础原理、DataFrame与Dataset、Spark SQL主要函数介绍实战部分：如何使用 DataFrame与Dataset开发一个wordcount程序；如何使用DataFrame与Dataset设计电影受众分析程序
	Spark Streaming 基础（1天）	理论部分：流式计算基础、spark streaming基础原理、基础API介绍（包括map、filter、flatMap、foreachRDD、saveAsTextFile等）和高级API介绍（window、 transform和mapWithState）、Redis介绍实战部分：利用Spark Streaming读取HDFS中的数据，经统计（window统计）后写入HDFS；利用Spark Streaming读取HDFS中的数据，经统计后写入Redis和HBase；利用mapWithState实现wordcount
	Spark Streaming进阶（1天）	理论部分：保存kafka offset并恢复、spark streaming容错机制、spark streaming调优方法、structured streaming原理及关键API 实战部分：利用Spark Streaming+kafka+redis实现“用户手机app行为分析系统”；实现streuctured streaming版本的wordcount
	Spark MLlib数据分析挖掘程序（1天）	数据挖掘与机器学习基础知识，以及机器学习案例 Spark MLib并行挖掘平台中的关联规则与预测、协同过滤与推荐模型的原理和算法实现、以及推荐分析模块的深度剖析、分析算法、关联规则挖掘算法、频繁模式挖掘算法的MapReduce并行实现及其应用开发；回归预测和局部加权线性回归预测算法、最近邻 KNN 预测分析的算法、时间序列模型的预测分析算法、协同过滤算法的 MapReduce实现和 Spark 实现技术应用、决策树分类分析挖掘算法、逻辑回归分类分析挖掘算法、贝叶斯分类分析挖掘算法
	Spark小测试（包括选择题、简单题和编程题三部分）
第三阶段：企业项目实战（4天）	Spark企业项目实战（2天）	【案例1：用户行为实时分析系统】项目背景、开发需求、项目架构、核心点讲解、数据展示、共性问题答疑、项目总结主要架构：Kafka+Spark Streaming+MySQL 【案例2：信用卡欺诈分析系统】项目背景、开发需求、项目架构、核心点讲解、数据展示、共性问题答疑、项目总结主要架构：HDFS+Spark Core 【实践部分】关键代码讲解与演示
第三阶段：企业项目实战（4天）	Hadoop企业项目实战（2天）	【案例3： “双十一”大数据日志分析系统】项目背景、开发需求、项目架构、核心点讲解、数据展示、共性问题答疑、项目总结【案例4：用户画像系统】项目背景、开发需求、项目架构、核心点讲解、数据展示、共性问题答疑、项目总结【实践部分】关键代码讲解与演示
总结	大数据职位面试培训	讲解常见的大数据面试题目
总结	大数据综合测试（仅包含编程题目）

业内独有实战课程模式

教你高薪、好用、不过时的技术

填写表单，下载更完整课表

大数据学习资料领取？

¥1000元大数据资料

免费领取