logo

小白学苑PBCP

PBCP, 让大数据竞赛更简单!

2023浙江省赛样题解析-数据采集:实时数据处理

任务描述

编写Scala代码,使用Flink消费Kafka中Topic的数据并进行相应的数据统计计算。

1、 使用Flink消费Kafka中topic的数据,根据数据中不同的表将数据分别分发至kafka的dwd层的fact_table1的Topic中,其他的表则无需处理。使用Kafka自带的消费者消费fact_table1(Topic)的前1条数据,将结果截图粘贴至对应报告中;

任务分析

根据题意,在本任务中,kafka既是数据源,也是data sink。数据处理流程为:

  Kafka Source(ods_mall_data主题) => Flink流程序 => Kafka Sink(fact_table1主题) => Kafka消费者脚本

从任务描述中可以看出,要处理的数据是事实表数据。因为这套任务书相当于“赛前划重点”,因此有意删掉了一些明确的信息,比如,分发哪个表的数据?数据源是哪个Topic?这导致需求描述非常模糊。

结合小白学苑”2023省赛专区“中相应部分的任务说明,这里我们假定是分发order_master表,数据源是Kafka ods_mall_data主题。

参考实现

请按以下步骤执行。

1) 首先,在IntelliJ IDEA中创建一个Flink Maven项目,取名为Flink140Example。

参考教程:会员登录