2023贵州省赛样题解析-实时数据处理:实时指标计算_子任务1
任务描述
编写Scala工程代码,使用Flink消费Kafka中dwd层的Topic数据。
1、 使用Flink消费kafka中的数据,统计商品的UV和PV,将结果写入HBase中的表中。使用Hive cli查询HBase中的表查询出10条数据,将结果截图粘贴至对应报告中;
任务分析
首先了解题目中相关术语的概念和含义。
(1) 商品的UV:可以理解为独立商品数,即单一商品数统计。但是这里题意模糊,所以假定任务是想要实时统计商品的UV。
(2) 商品的PV:可以理解为商品总数,即订单中商品数量的累加。
(3) 商品信息位于商品明细表(order_detail)中。我们另外创建一个fact_order_detail表,然后实时数据获取路径为:insert fact_order_detail => maxwell binlog => Kafka fact_order_detail主题。
(4) Flink流程序消费Kafka fact_order_detail主题数据,实时统计UV和PV,写入HBase表。
(5) 用Hive cli查询HBase,说明要为HBase映射Hive表(多么奇葩的做法啊!)
注意,结果写入HBase中时,rowkey的规则是什么?任务描述中没有给出任何说明。 本参考实现中采取的规则是:rowkey = 随机数(0-9)+ yyyyMMddHHmmssSSS
要完成这样的HBase表写入,使用Flink Table API更加方便。因此本任务我们使用流API混合Flink Table API/Flink SQL来实现。 ......
......
抱歉,只有登录会员才可浏览!会员登录