2024年重庆_甘肃_安徽等省职业院校技能大赛_大数据应用开发样题解析-模块C:实时数据处理-任务一:实时数据清洗

环境说明

Flink 任务在Yarn 上用per job 模式(即Job 分离模式,不采用Session 模式),方便Yarn 回收资源;

建议使用gson 解析json 数据。

任务描述

编写Java 工程代码,使用Flink 消费Kafka 中Topic 为ods_mall_log 和ods_mall_data 的数据并进行相应的数据统计计算(使用Processing Time)。

任务分析

注意任务描述中的两个关键词:一是"编写Java工程代码",二是"使用Processing Time"(即使用处理时间)。

这里对出题方提出表扬,因为出题方终于听取了老师们意见,在本次的后续子任务描述中,不但纠正了原来一些明显的错误描述,而且应老师们的强烈要求,给出了比较详细的表结构(虽然仍然没有给出业务解释),这样参赛学员终于可以有一些数据线索可循。

本任务共有三个子任务组成:

子任务1

子任务1描述

1、使用Flink 消费Kafka 中topic 为ods_mall_data 的数据,根据数据中不同的表将数据分别分发至ka ......

......

抱歉,只有登录会员才可浏览!会员登录


《Spark原理深入与编程实战》