加入收藏 | 设为首页 | 会员中心 | 我要投稿 PHP编程网 - 黄冈站长网 (http://www.0713zz.com/)- 数据应用、建站、人体识别、智能机器人、语音技术!
当前位置: 首页 > 服务器 > 搭建环境 > Linux > 正文

大数据经典学习路线(及供参考)

发布时间:2021-01-16 18:27:47 所属栏目:Linux 来源:网络整理
导读:副标题#e# 1.基础和分布式集群技术 学完此阶段可掌握的核心能力: ? 熟练使用Linux,熟练安装Linux上的软件,了解熟悉负载均衡、高可靠等集群相关概念,搭建互联网高并发、高可靠的服务; ? 学完此阶段可解决的现实问题: ? 搭建负载均衡、高可靠的服务器集

1、通过对数据仓库知识的加强初步掌握数据仓库的核心概念和设计流程;2、通过对HADOOP生态圈关键辅助工具的学习掌握hadoop分析系统的整合能力;3、通过电商系统点击流日志数据挖掘系统实战项目,掌握hadoop离线数据挖掘系统从数据采集、入库、分析及报表展现的整套流程

?

学完此阶段可解决的现实问题:

?

1、可根据企业具体场景设计海量数据分析系统的通用架构2、根据具体场景的特点有针对性地调整数据分析各环节的技术选型;3、根据具体需求搭建起整套离线数据分析系统;4、简单数据仓库模型的设计和架构5、各环节具体功能模块的开发实现

?

学完此阶段可拥有的市场价值:

?

具备企业数据部中高级应用开发和初级架构师能力



2.1 数据仓库增强

?

2.1.1 数据仓库及数据模型入门

?

什么是数据仓库、数据仓库的意义、数据仓库核心概念、数据仓库的体系结构

?

2.1.2 数据仓库设计

?

建立数据仓库的步骤、数据的抽取、数据的转换、数据的加载、什么是数据模型、数据模型的常见类型、如何设计数据模型、如何选择数据建模的架构

?

典型数据模型——星型建模实例

?

2.1.3 数据仓库建模样例

?

业务建模、领域建模、逻辑建模、物理建模

?

web点击流日志分析系统数据仓库设计实战:

?

通过对数据特点和业务需求的分析,关系梳理,设计出一个主题明确、层次合理的数据模型

?

大数据经典学习路线(及供参考)

?

2.2 离线辅助系统

?

2.2.1 数据采集系统

?

数据采集概念介绍

?

FLUME日志采集框架介绍、FLUME工作机制、FLUME核心组件、FLUME参数配置说明、FLUME采集nginx日志实战案例

?

大数据经典学习路线(及供参考)

2.2.2 任务调度系统

?

任务调度系统概念介绍、常用任务调度工具比较、OOZIE介绍、OOZIE核心概念、OOZIE的配置说明、OOIZE实现mapreduce/hive等任务调度实战案例

?

大数据经典学习路线(及供参考)

2.2.3 数据导出

?

数据导出概念介绍、SQOOP基础知识、SQOOP原理及配置说明、SQOOP数据导入实战、SQOOP数据导出实战、SQOOP批量作业操作

?

大数据经典学习路线(及供参考)

2.3 web点击流日志分析系统实战项目

?

2.3.1 项目介绍

?

1. 在PC时代,营销的核心是购买,在移动互联网时代,其核心是如何实现用户个性化互动,对用户传播更为精准化的内容,而实现这一核心的基础就是对数据的管理和分析——数据驱动型商业模型。

2. 各类互联网服务产品(如网站、APP)都可以通过前端技术获取用户的详细行为数据(如访问的页面,点击的区域、登陆的频次、注册行为、购买的行为等),将这些点击流日志数据与后台商业数据综合起来,就可以挖掘对公司运营决策意义非凡的商业价值。

3. 本项目则是一个用大数据技术平台实现的点击流日志分析数据挖掘系统,项目内容涵盖一个典型数据挖掘系统中,包括需求分析、数据采集、数据存储管理、数据清洗、数据仓库设计、ETL、业务模型统计分析、数据可视化的全部流程。

?

2.3.2 需求分析

?

什么是点击流日志、点击流日志的商业价值、点击流日志分析需求

业务模型指标体系设计——流量分析、来源分析、受访分析、访客分析、转化率分析

?

2.3.3 系统设计及开发

?

1. 系统架构设计

大数据经典学习路线(及供参考)

2. 数据采集设计及开发——数据格式、数据内容分析、数据生成规律、采集系统技术选型解析、FLUME采集系统实现

3. 数据存储设计及开发——存储技术选型、存储业务流程解析、存储目录规划及文件命名规则、小文件合并实现

4. 数据统计设计及开发——数据预处理、数据加载、原始数据表的创建、数据入库、数据ETL

5. 报表统计设计——数据模型设计、事实表设计、维度表梳理

6. 业务指标设计及开发——PV统计(时间维度、终端维度、地域维度)、来访次数统计(时间维度、地域维度、终端维度)、独立访客统计(时间维度、终端维度、地域维度)、受访页面统计(时间维度、栏目维度)、页面热点图、转化率分析、来源关键词分析、来源分析、来源广告推广分析

?

2.3.4 任务调度系统设计实现

?

任务调度单元实现、各环节任务运行频次及依赖关系梳理、工作流设计及实现、工作流定义配置上传部署、工作流启动即状态监控

?

大数据经典学习路线(及供参考)

2.3.5 数据可视化——结果报表展现

?

1. hive分析结果使用sqoop导出到msyql数据库

2. 报表展现系统技术选型:

后台使用spingmvc +??+ mybatis

前端页面使用全静态异步刷新技术?+ Echarts

3. web展现程序架构搭建,使用maven构建项目工程

4. web展现程序页面设计开发:原型页面设计、js代码开发

5. 最终实现以下数据可视化效果:

?

(1)流量概况可视化效果:

大数据经典学习路线(及供参考)

?

(2)来源地域分析可视化效果:

大数据经典学习路线(及供参考)

?

(3)来源类型分析可视化效果:

?

实时课程分为两个部分:流式计算核心技术和流式计算计算案例实战。

?

1.流式计算核心技术

?

流式计算核心技术主要分为两个核心技术点:Storm和Kafka,学完此阶段能够掌握Storm开发及底层原理、Kafka的开发及底层原理、Kafka与Storm集成使用。具备开发基于storm实时计算程序的技术能力。

?

学完此阶段可掌握的核心能力:

?

(1)、理解实时计算及应用场景

(2)、掌握Storm程序的开发及底层原理、掌握Kafka消息队列的开发及底层原理

(3)、具备Kafka与Storm集成使用的能力

?

学完此阶段可解决的现实问题:

?

具备开发基于storm的实时计算程序的能力

?

学完此阶段可拥有的市场价值:

?

具备实时计算开发的技术能力、但理解企业业务的能力不足



1.1、流式计算一般结构

?

(编辑:PHP编程网 - 黄冈站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读