2023年国赛高职大数据应用开发任务书题库分析
通过分析2023年国赛高职大数据应用开发赛方发布的10套任务书题库,可以看出,任务涉及的业务方面,基本上与2022年的国赛和2023年省赛的题目是相同的(电商数据,或工业数据),这部分小白学苑去年和今年的赛题解析参考中都已经涵盖,因此本次国赛解析不再就业务方面给出参考。如有需要,可参考"2022省赛专区"、"2022国赛专区"和"2023省赛专区"中的解析参考。
但是2023年国赛高职大数据应用开发赛项,还是有部分变化,主要体现在增加了对新的大数据组件的安装和使用的考察。因此,本解析专题主要针对这些新变化进行分析,并给出实现参考。
任务A:大数据平台搭建(窗口环境)
在任务A中,除了传统的大数据组件(Hadoop、Hadoop HA、Hive、HBase、Kafka、Spark、Flink、Flume等)的安装外,今年多了两个新组件的安装考察:ClickHouse和Hudi。
关于ClickHouse和Hudi的相关知识和应用,可参考小白学苑的ClickHouse教程和数据湖Hudi教程。
任务B:离线数据处理
在2023年国赛中,变化最大的是任务B部分。
在赛方提供的10套任务书题库中,“子任务一:数据抽取”和“子任务二:数据清洗”主要涉及到两个数据湖组件的使用:Hive和Hudi。业务均相同,但数据湖组件,或者使用Hive,或者使用Hudi。在去年的省赛、国赛和今年的省赛解析参考中,已经充分讲解了如何集成Spark和Hive实现离线数据处理,因此今年国赛系列解析参考中,着重讲解Spark与Hudi集成以实现离线数据抽取、数据清洗和指标计算任务。
“子任务三:指标计算”部分,均增加了对工作流组件的使用考察,主要包括Azkaban或DolphinScheduler。
任务C:数据挖掘
在数据挖掘部分,没有新变化,可参考2022年国赛和2023年省赛专区中的数据挖掘部分赛题解析参考。
任务D:数据采集与实时计算
在数据采集与实时计算部分,没有新变化,可参考2022年国赛和2023年省赛专区中的数据采集与实时计算部分赛题解析参考。
任务E:数据可视化
在数据可视化部分,没有新变化,可参考2022年国赛和2023年省赛专区中的数据可视化部分赛题解析参考。
任务F:综合分析
我们将根据陆续提供赛方所提供的10套任务书题库中综合分析题目的参考。
综合分析任务参考。