logo

小白学苑PBCP

PBCP, 让大数据竞赛更简单!

2023浙江省赛样题解析-实时数据处理:实时指标计算_子任务1

任务描述

编写Scala工程代码,使用Flink消费Kafka中dwd层的Topic数据。

1、 使用Flink消费kafka中的数据,统计商品的UV和PV,将结果写入HBase中的表中。使用Hive cli查询HBase中的表查询出10条数据,将结果截图粘贴至对应报告中;

任务分析

首先了解题目中相关术语的概念和含义。

(1) 商品的UV:可以理解为独立商品数,即单一商品数统计。但是这里题意模糊,所以假定任务是想要实时统计商品的UV。

(2) 商品的PV:可以理解为商品总数,即订单中商品数量的累加。

(3) 商品信息位于商品明细表(order_detail)中。我们另外创建一个fact_order_detail表,然后实时数据获取路径为:insert fact_order_detail => maxwell binlog => Kafka fact_order_detail主题。

(4) Flink流程序消费Kafka fact_order_detail主题数据,实时统计UV和PV,写入HBase表。

(5) 用Hive cli查询HBase,说明要为HBase映射Hive表(多么奇葩的做法啊!)

注意,结果写入HBase中时,rowkey的规则是什么?任务描述中没有给出任何说明。 本参考实现中采取的规则是:rowkey = 随机数(0-9)+ yyyyMMddHHmmssSSS......

抱歉,只有登录会员才可浏览!会员登录