2023贵州省赛样题解析-实时数据处理：实时指标计算

抱歉，只有登录会员才可浏览！<a href='/member/login'>会员登录</a>

2023贵州省赛样题解析-实时数据处理：实时指标计算_子任务1

编写Scala工程代码，使用Flink消费Kafka中dwd层的Topic数据。

1、使用Flink消费kafka中的数据，统计商品的UV和PV，将结果写入HBase中的表中。使用Hive cli查询HBase中的表查询出10条数据,将结果截图粘贴至对应报告中;

首先了解题目中相关术语的概念和含义。

(1) 商品的UV：可以理解为独立商品数，即单一商品数统计。但是这里题意模糊，所以假定任务是想要实时统计商品的UV。

(2) 商品的PV：可以理解为商品总数，即订单中商品数量的累加。

(3) 商品信息位于商品明细表(order_detail)中。我们另外创建一个fact_order_detail表，然后实时数据获取路径为：insert fact_order_detail => maxwell binlog => Kafka fact_order_detail主题。

(4) Flink流程序消费Kafka fact_order_detail主题数据，实时统计UV和PV，写入HBase表。

(5) 用Hive cli查询HBase，说明要为HBase映射Hive表（多么奇葩的做法啊!）

注意，结果写入HBase中时，rowkey的规则是什么？任务描述中没有给出任何说明。本参考实现中采取的规则是：rowkey = 随机数（0-9）+ yyyyMMddHHmmssSSS

要完成这样的HBase表写入，使用Flink Table API更加方便。因此本任务我们使用流API混合Flink Table API/Flink SQL来实现。 ......

......

抱歉，只有登录会员才可浏览！会员登录