2024年福建省大数据应用开发赛项样题解析-模块C:实时数据处理-任务二:实时指标计算
任务要求:编写Scala 工程代码,使用Flink 消费Kafka 中dwd 层的Topic数据,表结构与离线数据表结构相同。
本任务共有两个子任务组成。点击正文链接,可快速跳转到相应子任务实现部分:
子任务1
子任务1描述
1.使用Flink 消费kafka 中的数据,统计商品的UV 和PV,将结果写入HBase 中的表ads:online_uv_pv 中。使用Hive cli 查询ads.pv_uv_result 表,查询出10 条数据,将结果截图粘贴至客户端桌面【Release\模块C 提交结果.docx】中对应的任务序号下;
子任务1分析
首先了解题目中相关术语的概念和含义。
(1) 商品的UV:可以理解为独立商品数,即单一商品数统计。但是这里题意模糊,所以假定任务是想要实时统计全部商品的UV。
(2) 商品的PV:可以理解为商品总数。因为任务描述中没有明确是统计每个商品的PV,还是全部商品的PV,因此这里假定是要统计订单中全部商品数量的累加。
(3) 商品信息位于商品明细表(order_detail)中。我们另外创建一个fact_order_detail表,然后实时数据获取路径为:insert fact_order_detail => maxwell binlog => Kafka f ......
......
抱歉,只有登录会员才可浏览!会员登录