大数据编程培训
【所属机构:叩丁狼教育】

天气预报、疫情报告、搜索引擎、实时物流等都是我们在生活中经常会用到的功能,都是通过大数据实现的。大数据的简单定义就是大规模的数据集合,数据的采集一般通过人力抄录、设备采集、实时上传等方式完成,这样的数据拥有四大特点:数据体量大、数据变化快、数据类型杂、价值密度低。而大数据开发,就是把海量信息通过采集、存储、分析,挖掘出信息背后更多的价值,以更好地辅助企业、政府机关作出更好的决策,从而为社会创造价值。
大数据行业现状

大数据职业发展路线
icon
大数据开发工程师、大数据运维工程师、大数据平台架构师
icon
数据仓库工程师、ETL工程师、数据治理工程师
icon
数据分析工程师、BI工程师、数据挖掘算法工程师
icon
项目经理
产品经理
叩丁狼大数据课程大纲
时间 | 内容 | 培训目标 | 备注 |
---|---|---|---|
目标 | 夯实 Python 编程基础和编程思维,掌握熟练编写 Python 程序的能力,为大数据开发和分析打下坚实的基础 | ||
Python 基础 | 环境搭建、Pycharm 工具的使用、PEP8 编码规范、表达式、顺序结构、分支结构、循环结构、字符串、列表、元组、字典、集合、列表推导式、函数的定义和调用、函数的形式参数和实际参数、函数的返回值、匿名函数 Lambda、文件的操作、JSON 数据格式转换 with上下文管理、异常处理、异常捕获、抛出异常、自定义异常、模块和包的导入、模块的测试、模块的别名as、__init__.py、类的定义和对象的创建、封装 , 继承和多态、类属性和实例属性 类方法和静态方法 | ||
Python 进阶 | CPU 调度原理、多进程和多线程、线程同步、深浅拷贝、闭包、装饰器、迭代器、正则表达式、TCP/IP 协议、IP 地址和端口、TCP 和 UDP、socket 套接字、TCP 服务端、UDP 服务端、wireshark、web 框架搭建案例、git 分布式版本控制、工作区和暂存区、常用命令、gitee 远程仓库设置 | ||
git | git 分布式版本控制、工作区和暂存区、常用命令、gitee 远程仓库设置 | ||
核心知识点 | 1、深入理解 Python 核心基础 2、掌握面向对象 OOP 设计思想 3、掌握 Python 的数据结构列表、元组、字典、集合 4、掌握 JSON 文件数据操作和异常处理 5、理解 Python 的高级操作如闭包 , 单例 , 网络编程等 6、掌握 git 的核心操作 |
时间 | 内容 | 培训目标 | 备注 |
---|---|---|---|
目标 | 掌握基本的数据分析能力和 ETL 数据仓库的处理能力 | ||
匹配岗位 | 数据库工程师、 数据分析师、ETL 工程师、数据仓库工程师 | ||
Linux、MySQL、ETL 开发实战、电商数据分析实战 | 阶段知识点:VMware 虚拟化、VI 编辑器、rpm 包管理器、yum 包管理器、SSH 协议、网络查看netstat、进程管理 ps、阿里云服务器环境搭建、SQL、多表查询、聚合函数、窗口函数、存储过程、视图和索引、日志和事务、SQL优化、数据仓库、基于 Python 的 ETL 开发、Kettle、ETL 数据处理、MySQL 数据存储、FineBI 数据可视化 核心知识点:1、具备 Linux 操作系统的基本管理知识 2、熟练掌握 shell 脚本编程 3、熟练掌握数据库操作以及各种复杂查询技术 4、掌握 ETL 数据仓库的处理和分析 |
时间 | 内容 | 培训目标 | 备注 |
---|---|---|---|
目标 | 掌握 Hadoop 开发能力,能够胜任企业级数仓基本构建和离线数据仓库开发 | ||
匹配岗位 | 数据仓库工程师 , 初级大数据开发工程师 , 大数据平台架构师 | ||
Hadoop生态技术栈 | Zookeeper 集群安装、Zookeeper 的临时节点 Zookeeper 的顺序节点、Zookeeper 事件监听机制、Zookeeper 选举机制、Zookeeper 的应用场景 Zookeeper 的数据模型 Znode、 HDFS 存储文件流程、HDFS 集群环境搭建、 DataNode 和 NameNode、Block 块存储、RF 拷贝因子、机架感知、Block 拷贝策略、HDFS Federation、HDFS Snapshots、NameNode HA、MapReduce 架构和原理、Split 机制、 MapReduce 并行度、MapReduce 序列化、 MapReduce 数据压缩、MapReduce 调优、 YARN 原理和架构、YARN 高可用、Container 资源的封装、资源调度策略、Hive 分区表、 Hive 分桶表、Hive 临时表、Explain 执行计划、 MetaStore 服务、HiveServer 内置函数、UDF 和 UDAF、Hive 性能调优 | ||
基于 Hive 的视频点播平台离线数仓项目实战 | CDH 集群环境搭建、sqoop 数据同步、MySQL 完成 OLAP 系统存储、FineBI 数据可视化、数据仓库建模、ODS->DWD->DIM->DWS->ADS | ||
核心知识点 | 1、具备 Linux 操作系统的基本管理知识 2、熟练掌握 shell 脚本编程 3、熟练掌握数据库操作以及各种复杂查询技术 4、掌握 ETL 数据仓库的处理和分析 |
时间 | 内容 | 培训目标 | 备注 |
---|---|---|---|
目标 | 掌握短视频行业的业务逻辑与必备开发技能,通过 Spark 离线业务开发的项目实战,具备完整的大数据项目开发流程与设计 | ||
匹配岗位 | 数据仓库工程师 , 中级大数据离线开发工程师 , 中级大数据平台架构师 , 大数据应用开发工程师 | ||
Pandas 技术栈 | Series 和 DataFrame、Anaconda 开发环境搭建、Jupyter Notebook bool 索引、数据清洗数据处理、Matplotlib 数据可视化、数据分析案例 | ||
Spark 技术栈 | Spark 集群环境搭建、Spark-on-Yarn、 Spark-Submit、Master 和 Worker 节点分析、RDD 的核心特性、RDD 的创建和应用、 Transformation 和 Action 算子、checkpoint 机制、广播变量 (Broadcast Variables) 和累加器 (Accumulators)、宽依赖和窄依赖、 DAG 和 Stage 的划分、DataFrame 数据结构、 DSL 语法和 SQL 语法、DateFrame 加载外部数据源、SparkSQL-on-Hive、SparkSQL 的分析函数、Spark3.0 的新特性、Spark 性能调优、谓词下推 MapJoin、数据倾斜处理、案例实战 | ||
基于 Spark 的短视频运营决策分析离线实战项目 | Flume 日志采集DataX 数据库采集、Spark 内存计算引擎、Hive-on-Spark、HDFS 分布式存储、Yarn 统一资源调度、Shell 数据处理脚本、 Quick BI 数据可视化、Atlas 元数据管理、阿里数据仓库建模设计 (ODS->DWD->DIM->DWS- >ADS)、Dolphinscheduler3.0 任务调度、 Prometheus 监控管理 | ||
核心知识点 | 1、具备 Linux 操作系统的基本管理知识 2、熟练掌握 shell 脚本编程 3、熟练掌握数据库操作以及各种复杂查询技术 4、掌握 ETL 数据仓库的处理和分析 |
时间 | 内容 | 培训目标 | 备注 |
---|---|---|---|
目标 | 掌握 NoSQL 数据库的开发技能,为下一阶段的实时计算开发提供支撑 | ||
Redis 数据库 | Redis 的数据结构、Redis 的高可用集群搭建、Redis 的 雪 崩 和 缓 存 穿 透、Redis 缓 存 设 计、Redis 的热点 Key、Redis 的持久化机制、Redis的数据淘汰策略、Redis 案例 | ||
Kafka消息队列 | 基础架构、同步与异步、生产者分区策略、消息积压、0 拷贝机制、顺序写磁盘、费策略、数据可靠性、异步消息、同步消息、Leader 选举流程、高效读写原理 | ||
HBase | HBase 原理及架构、数据读写流程、HBase 性能调优、FlinkSQL+HBase | ||
核心知识点 | 1、Redis 的缓存设计和应用实战 2、Redis 的 Key-Value 存储的数据特性 3、Redis 的高可用集群搭建 4、Kafka 消息队列的应用 5、Kafka 和其他组件 (Flume,HBase) 结合 6、HBase 列式存储 |
时间 | 内容 | 培训目标 | 备注 |
---|---|---|---|
目标 | 掌握阅读和修改大数据框架源码的能力,具备通过 Java 开发大数据应用的能力 | ||
Java 编程 | 阶段知识点:Java 基础语法、面向对象 OOP、文件 IO 操作、 Stream 流、多线程 Tread 和 Runnable、集合框架、网络编程 Socket 通信、反射和代理、JDBC 编程、Maven 项目构建、Java 操作 HDFS、Java 编写 MapReduce 程序 | ||
核心知识点 | 1、掌握 Java 编程基础; 2、具有多线程 , 多进程并发开发的能力; 3、具有网络编程 , 文件操作的基本能力; 4、通过 Java 编写大数据的应用程序 |
时间 | 内容 | 培训目标 | 备注 |
---|---|---|---|
Flink 技术栈 | Flink 集群环境搭建、Flink 运行架构、Flink 的流批一体 API、Flink 的 Window 窗口操作、Flink 的 Watermark 操作、Flink的状态管理、Flink 的容错机制、Flink 的 Exactly-Once、Flink的多流 Join、FlinkSQL+Hive、Flink+Kafka、Flink 参数调优 | ||
基于 Flink的互联网医院平台实时实战项目 | Flume 日志采集、DataX 数据库采集、消息队列 Kafka、分布式缓存 Redis、Prometheus 监控管理、ClickHouse、DataV 数据可视化、Dolphinscheduler3.0 任务调度、Flink-On-K8S、Atlas 元数据管理、HDFS 分布式存储、Yarn 统一资源调度 | ||
核心知识点 | 1、Flink 实时计算的开发与实战 2、Flink 的流批一体 API 的高级应用 3、Flink 的容错机制Checkpoint 4、Flink 的多流 Join 5、医疗健康实时项目全流程开发和设计 |
时间 | 内容 | 培训目标 | 备注 |
---|---|---|---|
内容 | 1、就业技巧 / 面试题 / 人事题;2、简历修改 / 模拟面试;3、就业跟踪 | ||
目标 | 具备较高的职业素养和面试能力,提升个人面试成功率 |
叩丁狼大数据项目介绍
基于 Hive 的狼码教育离线分析实战项目:狼码教育离线分析系统项目 , 是一个借鉴狼码教育公司系统的实际业务场景 , 引入海量的访问数据和业务数据 , 采用当前企业最热门的大数据主流技术 , 从 0 到 1 开始构建好一套完整的离线数据仓库,然后进行数据分析,并使用 FineBI 显示分析结果的项目。
学习目标:
1、掌握项目的各个核心业务分析;2、熟练数据建模的设计与实现;3、熟练掌握企业中用的核心的大数据开发技术;4、熟练掌握大数据开发的整个流程;5、理解数据仓库的特点;6、理解数据仓库系统架构;7、理解指标与维度;8、理解下钻与上卷;9、理解事实表与维度表;10、理解星型模型和雪花模型;11、理解缓慢渐变维;12、掌握数据仓库的分层方法
基于 Spark 的短视频运营决策分析离线实战项目:该短视频项目定位于中小城市的普通移动互联网用户,通过“裂变网赚”模式,以人传人的方式快速积累用户,完成用户爆发式的指数级增长,因此视频以内容消耗为主,区别于抖音以内容创作 + 内容消耗,通过算法分析完成精准推送的的模式。该项目基于对短视频领域的真实业务深入调研和分析 , 引入真实完整业务系统中的业务数据和用户行为数据,采用大数据主流技术 , 以及完整的数据仓库的建模和设计 , 通过运营分析指标为公司领导战略决策提供关键依据。
学习目标:
1、掌握短视频的各个核心业务分析;2、熟练数据建模的设计与实现;3、熟练掌握企业中用的核心的大数据开发技术;4、熟练掌握大数据开发的整个流程
基于 Flink 的互联网医院平台实时实战项目:近年来我国互联网医疗快速发展,到 2026 年将达到近 2,000 亿元。该互联网医疗分析项目主要的用户来源属于 B2B2C 模式 , 主要是通过互联网医院和各大连锁店的药房进行合作,比如说大参林药房,国大药房等,患者去药房咨询,如果需要开处方药信息,由于药房没有开处方药资质,则会通过互联网医院进行医生的咨询、诊断、开具相应的处方药。通过对互联网医院的业务分析和调研,使用 MaxWell 实时采集用户端、商家端以及运营端的业务数据同步到消息中心 Kafka,使用 Kafka 作为实时数据的数据仓库核心存储,使用 DataV 同步数据到应用层,使用 QuickBI 完成数据的可视化,并且在整个项目中使用 Prometheus、Atlas、Ranger 等完成大数据平台治理,保证整个项目的安全和权限,系统性能监控,元数据血缘关系的可追溯。
学习目标:
1、实时数仓平台搭建;2、实时数仓模型设计;3、医疗行业核心指标的设计和分析;4、具备大数据技术选型和相关参数的调优能力;5、Flink 平台的构建和设计实现 , 具备构建 PB 级别数量计算引擎
四大优势为零基础学员保驾护航

课程专为零基础学员设计,能更好掌握各业务场景下的数据处理

课程设计贴合企业需求,融入企业前沿技术栈,还原真实项目开发流程

双语教学,能同时掌握 Python 和 Java 两种大数据开发能力,具备独立分析解决问题的能力

完整的大户数据生态链路实战,通过阿里云平台快速掌握智能数据建模,高效数据开发等全流程的实战和应用