2023浙江省赛样题解析-实时数据处理：实时数据清洗

2023浙江省赛样题解析-数据采集：实时数据处理

编写Scala代码，使用Flink消费Kafka中Topic的数据并进行相应的数据统计计算。

1、使用Flink消费Kafka中topic的数据，根据数据中不同的表将数据分别分发至kafka的dwd层的fact_table1的Topic中，其他的表则无需处理。使用Kafka自带的消费者消费fact_table1（Topic）的前1条数据，将结果截图粘贴至对应报告中；

根据题意，在本任务中，kafka既是数据源，也是data sink。数据处理流程为：

  Kafka Source(ods_mall_data主题) => Flink流程序 => Kafka Sink(fact_table1主题) => Kafka消费者脚本

从任务描述中可以看出，要处理的数据是事实表数据。因为这套任务书相当于“赛前划重点”，因此有意删掉了一些明确的信息，比如，分发哪个表的数据？数据源是哪个Topic？这导致需求描述非常模糊。

结合小白学苑”2023省赛专区“中相应部分的任务说明，这里我们假定是分发order_master表，数据源是Kafka ods_mall_data主题。

请按以下步骤执行。

1) 首先，在IntelliJ IDEA中创建一个Flink Maven项目，取名为Flink140Example。

参考教程：会员登录