数据采集
使用Flume,可进行流式日志数据的收集。使用Sqoop可以交互关系型数据库,进行导入导出数据。使用爬虫技术,可在网上爬取。
数据存储与管理
大数据利用分布式文件系统HDFS、HBase、Hive,实现对结构化、半结构化和非结构化数据的存储和管理。
数据处理与分析
利用分布式并行编程模型和计算框架,结合机器学习和数据挖掘算法,实现对海量数据的处理和分析。
计算机相关专业
数学相关专业
ICT在职转行大数据
对大数据感兴趣的人
使用Flume,可进行流式日志数据的收集。使用Sqoop可以交互关系型数据库,进行导入导出数据。使用爬虫技术,可在网上爬取。
大数据利用分布式文件系统HDFS、HBase、Hive,实现对结构化、半结构化和非结构化数据的存储和管理。
利用分布式并行编程模型和计算框架,结合机器学习和数据挖掘算法,实现对海量数据的处理和分析。
数据采集
数据存储
数据处理
课程阶段 | 主要内容 | 核心能力培养 |
大数据开发语言基础 | 基本程序逻辑、面向对象深入、异常处理机制、常用类、集合&泛型、多线程、MySQL基础、远程仓库、DDL/DCL/DML/DQL、SQL优化、批量处理事务DBUtil、Git管理文件版本、pom.xml详解 | 掌握Java核心技术、掌握MySQL数据库、掌握利用JDBC操作数据库 |
离线场景下的数据存储和计算 | 企业常用Linux命令、awk,sed,seq,xargs进阶命令、HDFS分布式文件系统、MapReduce并行计算、Yarn资源分配、Hive数据仓库、Flume日志实时采集、Sqoop数据导入导出工具 | 掌握Hadoop生态技术栈:HDFS,MapReduce,Yarn,Zookeeper,Hive,Flume,Sqoop等,掌握ETL技术:Kylin、kettle等、BI工具:Superset、Echarts。 项目实战:企业级电商大数据分析系统之离线数据仓库项目、客快物流大数据项目 |
数仓建设和实时检索 | Redis概述、Redis事务、Jedis和Spring整合、Hbase整体架构、API的使用方式、数据结构检索与搜索原理、search搜索相关算法、kafka安装和使用、kafka运行流程和文件存储、分区原则、消息可靠性 | 掌握No SQL数据库:Redis,HBase,掌握数据仓库设计和建设,掌握实时检索Elastic Search技术 |
Scala编程&Spark分布式计算框架 | Scala概述、Scala程序逻辑、Scala面向对象编程、 隐式转换、Scala集合、函数式编程、单向环形链表、约瑟夫问题、Spark概述、Spark安装和使用、RDD&算子、Spark SQL、DataSet DataFrame 、SparkStreaming、Spark调优 | 掌握Scala语言和算法,掌握Spark分布式计算框架 |
实时计算与数据挖掘 | Spark MLlib算法、Spark MLlib统计分析、Spark MLlib分类和回归、Spark MLlib聚类和降维、Spark MLlib关联规则与推荐算法、Flink状态管理与恢复、Flink的Time详解、Flink SQL、Flink的事件处理 | 掌握数据挖掘、掌握Flink计算引擎 |
大数据已渗透到各个领域,无处不在
高频交易,市场分析,信贷风险分析等
智慧物流,包括成本控制,风险管理等
在线教育、适应性教学,教学规律发现等
流行病预测,智慧医疗,健康管理等
用户画像,个性化推荐,广告投放等
智慧交通,城市规划,智能安防等
选择我们,选择成功!