• 个人中心
  • 机构中心
  • 在线客服
  • 18118717617
13802169021

全国统一学习专线 8:30-21:00

同城学 课程 电脑ITIT培训大数据培训

大数据编程培训

一对一电话咨询
课程优势: 课程专为零基础学员设计,能更好掌握各业务场景下的数据处理
上课方式: 面授
上课时段: 全日制(更多上课时段可电询)
课程详情 教学点 教学环境 学员评论
大数据编程培训
天气预报、疫情报告、搜索引擎、实时物流等都是我们在生活中经常会用到的功能,都是通过大数据实现的。大数据的简单定义就是大规模的数据集合,数据的采集一般通过人力抄录、设备采集、实时上传等方式完成,这样的数据拥有四大特点:数据体量大、数据变化快、数据类型杂、价值密度低。而大数据开发,就是把海量信息通过采集、存储、分析,挖掘出信息背后更多的价值,以更好地辅助企业、政府机关作出更好的决策,从而为社会创造价值。

大数据行业现状


课程前景 课程前景 IT 发展趋势(从 IT 进入 DT 时代):互联网→移动互联网→大数据→人工智能。互联网的技术进步,必然会促成新的技术产生,再到成熟,而大数据就是这个新兴技术。随着互联网技术进步与大数据技术的成长,不管是人们期待自动驾驶还是人工智能,都要依靠大数据的支持。

大数据职业发展路线


  • 数据工程方向 icon

    大数据开发工程师、大数据运维工程师、大数据平台架构师

  • 数据仓库方向 icon

    数据仓库工程师、ETL工程师、数据治理工程师

  • 数据分析方向 icon

    数据分析工程师、BI工程师、数据挖掘算法工程师

  • 技术管理方向 icon

    项目经理
    产品经理


叩丁狼大数据课程大纲


.ys_box88>.boxx>span:before{background:#3eb5f1}.ys_box88>.boxx>.list>table>tbody>tr>td:nth-of-type(1){color:#3eb5f1} 第一阶段Python 编程 时间 内容 培训目标 备注 目标 夯实 Python 编程基础和编程思维,掌握熟练编写 Python 程序的能力,为大数据开发和分析打下坚实的基础 Python 基础 环境搭建、Pycharm 工具的使用、PEP8 编码规范、表达式、顺序结构、分支结构、循环结构、字符串、列表、元组、字典、集合、列表推导式、函数的定义和调用、函数的形式参数和实际参数、函数的返回值、匿名函数 Lambda、文件的操作、JSON 数据格式转换 with上下文管理、异常处理、异常捕获、抛出异常、自定义异常、模块和包的导入、模块的测试、模块的别名as、__init__.py、类的定义和对象的创建、封装 , 继承和多态、类属性和实例属性 类方法和静态方法 Python 进阶 CPU 调度原理、多进程和多线程、线程同步、深浅拷贝、闭包、装饰器、迭代器、正则表达式、TCP/IP 协议、IP 地址和端口、TCP 和 UDP、socket 套接字、TCP 服务端、UDP 服务端、wireshark、web 框架搭建案例、git 分布式版本控制、工作区和暂存区、常用命令、gitee 远程仓库设置 git git 分布式版本控制、工作区和暂存区、常用命令、gitee 远程仓库设置 核心知识点 1、深入理解 Python 核心基础
2、掌握面向对象 OOP 设计思想
3、掌握 Python 的数据结构列表、元组、字典、集合
4、掌握 JSON 文件数据操作和异常处理
5、理解 Python 的高级操作如闭包 , 单例 , 网络编程等
6、掌握 git 的核心操作 第二阶段大数据基础 时间 内容 培训目标 备注 目标 掌握基本的数据分析能力和 ETL 数据仓库的处理能力 匹配岗位 数据库工程师、 数据分析师、ETL 工程师、数据仓库工程师 Linux、MySQL、ETL 开发实战、电商数据分析实战 阶段知识点:VMware 虚拟化、VI 编辑器、rpm 包管理器、yum 包管理器、SSH 协议、网络查看netstat、进程管理 ps、阿里云服务器环境搭建、SQL、多表查询、聚合函数、窗口函数、存储过程、视图和索引、日志和事务、SQL优化、数据仓库、基于 Python 的 ETL 开发、Kettle、ETL 数据处理、MySQL 数据存储、FineBI 数据可视化
核心知识点:1、具备 Linux 操作系统的基本管理知识
2、熟练掌握 shell 脚本编程
3、熟练掌握数据库操作以及各种复杂查询技术
4、掌握 ETL 数据仓库的处理和分析 第三阶段大数据治理 时间 内容 培训目标 备注 目标 掌握 Hadoop 开发能力,能够胜任企业级数仓基本构建和离线数据仓库开发 匹配岗位 数据仓库工程师 , 初级大数据开发工程师 , 大数据平台架构师 Hadoop生态技术栈 Zookeeper 集群安装、Zookeeper 的临时节点 Zookeeper 的顺序节点、Zookeeper 事件监听机制、Zookeeper 选举机制、Zookeeper 的应用场景 Zookeeper 的数据模型 Znode、 HDFS 存储文件流程、HDFS 集群环境搭建、 DataNode 和 NameNode、Block 块存储、RF 拷贝因子、机架感知、Block 拷贝策略、HDFS Federation、HDFS Snapshots、NameNode HA、MapReduce 架构和原理、Split 机制、 MapReduce 并行度、MapReduce 序列化、 MapReduce 数据压缩、MapReduce 调优、 YARN 原理和架构、YARN 高可用、Container 资源的封装、资源调度策略、Hive 分区表、 Hive 分桶表、Hive 临时表、Explain 执行计划、 metaStore 服务、HiveServer 内置函数、UDF 和 UDAF、Hive 性能调优 基于 Hive 的视频点播平台离线数仓项目实战 CDH 集群环境搭建、sqoop 数据同步、MySQL 完成 OLAP 系统存储、FineBI 数据可视化、数据仓库建模、ODS->DWD->DIM->DWS->ADS 核心知识点 1、具备 Linux 操作系统的基本管理知识
2、熟练掌握 shell 脚本编程
3、熟练掌握数据库操作以及各种复杂查询技术
4、掌握 ETL 数据仓库的处理和分析 第四阶段大数据离线开发 时间 内容 培训目标 备注 目标 掌握短视频行业的业务逻辑与必备开发技能,通过 Spark 离线业务开发的项目实战,具备完整的大数据项目开发流程与设计 匹配岗位 数据仓库工程师 , 中级大数据离线开发工程师 , 中级大数据平台架构师 , 大数据应用开发工程师 Pandas 技术栈 Series 和 Dataframe、Anaconda 开发环境搭建、Jupyter Notebook bool 索引、数据清洗数据处理、Matplotlib 数据可视化、数据分析案例 Spark 技术栈 Spark 集群环境搭建、Spark-on-Yarn、 Spark-Submit、Master 和 Worker 节点分析、RDD 的核心特性、RDD 的创建和应用、 Transformation 和 Action 算子、checkpoint 机制、广播变量 (Broadcast Variables) 和累加器 (Accumulators)、宽依赖和窄依赖、 DAG 和 Stage 的划分、Dataframe 数据结构、 DSL 语法和 SQL 语法、Dateframe 加载外部数据源、SparkSQL-on-Hive、SparkSQL 的分析函数、Spark3.0 的新特性、Spark 性能调优、谓词下推 MapJoin、数据倾斜处理、案例实战 基于 Spark 的短视频运营决策分析离线实战项目 Flume 日志采集DataX 数据库采集、Spark 内存计算引擎、Hive-on-Spark、HDFS 分布式存储、Yarn 统一资源调度、Shell 数据处理脚本、 Quick BI 数据可视化、Atlas 元数据管理、阿里数据仓库建模设计 (ODS->DWD->DIM->DWS- >ADS)、Dolphinscheduler3.0 任务调度、 Prometheus 监控管理 核心知识点 1、具备 Linux 操作系统的基本管理知识
2、熟练掌握 shell 脚本编程
3、熟练掌握数据库操作以及各种复杂查询技术
4、掌握 ETL 数据仓库的处理和分析 第五阶段NoSQL 与实时技术 时间 内容 培训目标 备注 目标 掌握 NoSQL 数据库的开发技能,为下一阶段的实时计算开发提供支撑 Redis 数据库 Redis 的数据结构、Redis 的高可用集群搭建、Redis 的 雪 崩 和 缓 存 穿 透、Redis 缓 存 设 计、Redis 的热点 Key、Redis 的持久化机制、Redis的数据淘汰策略、Redis 案例 Kafka消息队列 基础架构、同步与异步、生产者分区策略、消息积压、0 拷贝机制、顺序写磁盘、费策略、数据可靠性、异步消息、同步消息、Leader 选举流程、高效读写原理 Hbase Hbase 原理及架构、数据读写流程、Hbase 性能调优、FlinkSQL+Hbase 核心知识点 1、Redis 的缓存设计和应用实战
2、Redis 的 Key-Value 存储的数据特性
3、Redis 的高可用集群搭建
4、Kafka 消息队列的应用
5、Kafka 和其他组件 (Flume,Hbase) 结合
6、Hbase 列式存储 第六阶段Java 编程 时间 内容 培训目标 备注 目标 掌握阅读和修改大数据框架源码的能力,具备通过 Java 开发大数据应用的能力 Java 编程 阶段知识点:Java 基础语法、面向对象 OOP、文件 IO 操作、 Stream 流、多线程 Tread 和 Runnable、集合框架、网络编程 Socket 通信、反射和代理、JDBC 编程、Maven 项目构建、Java 操作 HDFS、Java 编写 MapReduce 程序
核心知识点 1、掌握 Java 编程基础;
2、具有多线程 , 多进程并发开发的能力;
3、具有网络编程 , 文件操作的基本能力;
4、通过 Java 编写大数据的应用程序 第七阶段大数据实时开发 时间 内容 培训目标 备注 Flink 技术栈 Flink 集群环境搭建、Flink 运行架构、Flink 的流批一体 API、Flink 的 Window 窗口操作、Flink 的 Watermark 操作、Flink的状态管理、Flink 的容错机制、Flink 的 Exactly-Once、Flink的多流 Join、FlinkSQL+Hive、Flink+Kafka、Flink 参数调优 基于 Flink的互联网医院平台实时实战项目 Flume 日志采集、DataX 数据库采集、消息队列 Kafka、分布式缓存 Redis、Prometheus 监控管理、ClickHouse、DataV 数据可视化、Dolphinscheduler3.0 任务调度、Flink-On-K8S、Atlas 元数据管理、HDFS 分布式存储、Yarn 统一资源调度 核心知识点 1、Flink 实时计算的开发与实战
2、Flink 的流批一体 API 的高级应用
3、Flink 的容错机制Checkpoint
4、Flink 的多流 Join
5、医疗健康实时项目全流程开发和设计 第八阶段面试和就业 时间 内容 培训目标 备注 内容 1、就业技巧 / 面试题 / 人事题;2、简历修改 / 模拟面试;3、就业跟踪 目标 具备较高的职业素养和面试能力,提升个人面试成功率

叩丁狼大数据项目介绍


项目一 项目二 项目三

基于 Hive 的狼码教育离线分析实战项目:狼码教育离线分析系统项目 , 是一个借鉴狼码教育公司系统的实际业务场景 , 引入海量的访问数据和业务数据 , 采用当前企业最热门的大数据主流技术 , 从 0 到 1 开始构建好一套完整的离线数据仓库,然后进行数据分析,并使用 FineBI 显示分析结果的项目。
学习目标:
1、掌握项目的各个核心业务分析;2、熟练数据建模的设计与实现;3、熟练掌握企业中用的核心的大数据开发技术;4、熟练掌握大数据开发的整个流程;5、理解数据仓库的特点;6、理解数据仓库系统架构;7、理解指标与维度;8、理解下钻与上卷;9、理解事实表与维度表;10、理解星型模型和雪花模型;11、理解缓慢渐变维;12、掌握数据仓库的分层方法

基于 Spark 的短视频运营决策分析离线实战项目:该短视频项目定位于中小城市的普通移动互联网用户,通过“裂变网赚”模式,以人传人的方式快速积累用户,完成用户爆发式的指数级增长,因此视频以内容消耗为主,区别于抖音以内容创作 + 内容消耗,通过算法分析完成精准推送的的模式。该项目基于对短视频领域的真实业务深入调研和分析 , 引入真实完整业务系统中的业务数据和用户行为数据,采用大数据主流技术 , 以及完整的数据仓库的建模和设计 , 通过运营分析指标为公司领导战略决策提供关键依据。
学习目标:
1、掌握短视频的各个核心业务分析;2、熟练数据建模的设计与实现;3、熟练掌握企业中用的核心的大数据开发技术;4、熟练掌握大数据开发的整个流程

基于 Flink 的互联网医院平台实时实战项目:近年来我国互联网医疗快速发展,到 2026 年将达到近 2,000 亿元。该互联网医疗分析项目主要的用户来源属于 B2B2C 模式 , 主要是通过互联网医院和各大连锁店的药房进行合作,比如说大参林药房,国大药房等,患者去药房咨询,如果需要开处方药信息,由于药房没有开处方药资质,则会通过互联网医院进行医生的咨询、诊断、开具相应的处方药。通过对互联网医院的业务分析和调研,使用 MaxWell 实时采集用户端、商家端以及运营端的业务数据同步到消息中心 Kafka,使用 Kafka 作为实时数据的数据仓库核心存储,使用 DataV 同步数据到应用层,使用 QuickBI 完成数据的可视化,并且在整个项目中使用 Prometheus、Atlas、Ranger 等完成大数据平台治理,保证整个项目的安全和权限,系统性能监控,元数据血缘关系的可追溯。
学习目标:
1、实时数仓平台搭建;2、实时数仓模型设计;3、医疗行业核心指标的设计和分析;4、具备大数据技术选型和相关参数的调优能力;5、Flink 平台的构建和设计实现 , 具备构建 PB 级别数量计算引擎


四大优势为零基础学员保驾护航


真懂你 真懂你

课程专为零基础学员设计,能更好掌握各业务场景下的数据处理

够真实 够真实

课程设计贴合企业需求,融入企业前沿技术栈,还原真实项目开发流程

教双语 教双语

双语教学,能同时掌握 Python 和 Java 两种大数据开发能力,具备独立分析解决问题的能力

拼实战 拼实战

完整的大户数据生态链路实战,通过阿里云平台快速掌握智能数据建模,高效数据开发等全流程的实战和应用


教学点

校区环境

学员评论

0相关评论

叩丁狼教育

叩丁狼教育
认证 1 年

成立:2017年

资质认证 地址认证 教学保障 在线预约 到店体验 售后支持
申请试听课程

提交后,免费快速为您匹配专业课程