2021-2022年高职大数据竞赛-赛题内容
本系列共分五篇,内容分别为:
第一部分 竞赛内容
赛项以大数据技术与应用为核心内容和工作基础,重点考查参赛选手基于Spark、Flink平台环境下,充分利用Spark Core、Spark SQL、Flume、Kafka、Flink等技术的特点,综合软件开发相关技术,解决实际问题的能力,具体包括:
- 1. 掌握基于Spark的离线分析平台、基于Flink的实时分析平台,按照项目需求安装相关技术组件并按照需求进行合理配置;
- 2. 掌握基于Spark的离线数据抽取相关技术,完成指定数据的抽取并写入Hive分区表中;
- 3. 综合利用Spark Core、Spark SQL等技术,使用Scala开发语言,完成某电商系统数据的离线统计服务,包括销量前5商品统计、某月的总销售额统计、每个月的销售额统计、每个用户在线总时长统计,并将统计结果存入MySQL数据库中;
- 4. 综合利用Flume、Flink相关技术,使用Scala开发语言,完成将某电商系统的用户操作日志抽取到Kafka中,消费Kafka中的数据并计算商城在线人数,并统计该电商系统的UV与PV;
- 5. 综合运用HTML、CSS、JavaScript等开发语言,Vue.js前端技术,结合Echarts数据可视化组件,对MySQL中的数据进行可视化呈现;
- 6. 根据数据可视化结果,完成数据分析报告的编写;
(一) 竞赛内容构成
竞赛内容构成如下:
考核环境 | 考核知识点和技能点 |
---|---|
大数据平台环境搭建 (Linux Shell) |
Hadoop完全分布式安装配置 |
Spark安装配置 | |
Flink安装配置 | |
Kafka安装配置 | |
Flume安装配置 | |
离线数据抽取 (Scala) |
使用Spark抽取MySQL指定数据表中的新增的商品数据到ODS层的指定的分区表中 |
使用Spark抽取MySQL指定数据表中的新增的用户数据到ODS层的指定的分区表中 | |
使用Spark抽取MySQL指定数据表中的新增的订单数据到ODS层的指定的分区表中 | |
离线数据统计 (Scala) |
获取ODS层指定分区表中的数据并进行相应的清洗(缺失字段填充、去重) |
统计销量前5的商品并存入MySQL | |
统计某月的总销售额并存入MySQL | |
统计指定几个月的销售额并存入MySQL | |
统计每个用户的在线总时长并存入MySQL | |
数据采集与实时计算 (Scala) |
使用Flume采集某电商系统用户操作日志存入Kafka中 |
使用Flink消费Kafka中的数据 | |
聚合计算出系统在线人数并将结果存入Redis中 | |
统计系统的UV与PV并存入MySQL中 | |
数据可视化 (HTML、CSS、JavaScript、Vue.js) |
基于Vue.js、Echarts的数据可视化渲染编码(柱状图、折线图、饼图等) |
综合分析报告 | 文档能力、数据分析能力 |
(二) 竞赛内容概述
序号 | 任务名称 | 具体内容 |
---|---|---|
任务一 | 大数据平台环境搭建 | 按照大数据分析平台需求,需要完成Hadoop完全分布式、Spark安装配置、Flink安装配置、Kafka安装配置、Flume安装配置 |
任务二 | 离线数据抽取 | 按照要求使用Scala语言完成特定函数的编写,使用Spark抽取MySQL指定数据表中的新增的数据到ODS层的指定的分区表中 |
任务三 | 离线数据统计 | 使用Scala语言编写程序获取ODS层指定分区表中的数据进行清洗,并完成销量前5的商品统计、某月的总销售额统计、指定月份的销售额统计、各用户在线总时长统计,并将统计后的数据存入MySQL数据库中 |
任务四 | 数据采集与实时计算 | 启动业务系统,按照要求使用Flume将用户操作日志采集并存入Kafka中并使用Flink、Scala消费Kafka中的数据将其进行聚合计算出商城在线人数,将结果存入Redis中,并统计该系统的UV与PV将结果存入MySQL中 |
任务五 | 数据可视化 | 编写前端Web界面,调用后台数据接口,使用Vue.js、Echarts完成数据可视化 |
任务六 | 综合分析报告 | 根据要求编写综合分析报告 |
任务说明
本项目要求完成离线电商数据统计分析,完成大数据平台环境搭建、离线数据抽取、离线数据统计、数据采集与实时计算、数据可视化及综合分析报告编写等工作。
提供的相关资源包括:
- 1.大数据环境搭建中需要用到的组件安装包
- 2.电商相关数据
- 3.大数据分析集群环境
- 4.离线数据抽取开发环境
- 5.离线数据统计开发环境
- 6.数据采集与实时计算开发环境
- 7.数据可视化开发环境
- 8.综合分析报告文档模板
任务一:大数据平台环境搭建
按照大数据分析平台需求,需要完成Hadoop完全分布式、Spark安装配置、Flink安装配置、Kafka安装配置、Flume安装配置。
任务二:离线数据抽取
按照要求使用Scala语言完成特定函数的编写,使用Spark抽取MySQL指定数据表中的新增的数据到ODS层的指定的分区表中。
任务三:离线数据统计
使用Scala语言编写程序获取ODS层指定分区表中的数据进行清洗,并完成销量前5的商品统计、某月的总销售额统计、指定月份的销售额统计、各用户在线总时长统计,并将统计后的数据存入MySQL数据库中。
任务四:数据采集与实时计算
启动业务系统,按照要求使用Flume将用户操作日志采集并存入Kafka中并使用Flink、Scala消费Kafka中的数据将其进行聚合计算出商城在线人数,将结果存入Redis中,并统计该系统的UV与PV将结果存入MySQL中。
任务五:数据可视化
编写前端Web界面,调用后台数据接口,使用Vue.js、Echarts完成数据可视化。
任务六:综合分析报告
根据项目要求,完成综合分析报告编写。