2024年重庆_甘肃_安徽等省职业院校技能大赛_大数据应用开发样题解析-模块C:实时数据处理-任务二:实时指标计算

环境说明

Flink 任务在Yarn 上用per job 模式(即Job 分离模式,不采用Session 模式),方便Yarn 回收资源;

建议使用gson 解析json 数据。

任务描述

编写Java 工程代码,使用Flink 消费Kafka 中dwd 层的Topic 数据,表结构与离线数据表结构相同,时间语义使用Processing Time。

任务分析

注意任务描述中的两个关键词:一是"编写Java工程代码",二是"使用Processing Time"(即使用处理时间)。

本任务共有两个子任务组成:

子任务1

子任务1描述

1、使用Flink 消费kafka 中log_product_browse 主题的数据,统计商品的UV(浏览用户量)和PV(商品浏览量),将结果写入HBase 中的表ads:online_uv_pv 中。使用Hive cli(没写错)查询ads.pv_uv_result 表按照product_id 和pv 进行降序排序,查询出10 条数据,将结果截图粘贴至客户 ......

......

抱歉,只有登录会员才可浏览!会员登录


《PySpark原理深入与编程实战》