logo

小白学苑PBCP

PBCP, 让大数据竞赛更简单!

2022(7.20更新)高职大数据竞赛(任务书一)-离线数据处理任务三:指标计算

任务描述

使用Scala编写spark工程代码,并计算相关指标。

注:在指标计算中,不考虑订单信息表中order_status字段的值,将所有订单视为有效订单。计算订单金额或订单总金额时只使用final_total_amount字段。需注意dwd所有的维表取最新的分区。

启动Hive Metastore服务

如果想要Spark能读写Hive中的数据表,需要访问Metastore服务。在终端中执行如下命令:

$ hive --service metastore

这将保持Hive Metastore服务一直运行,请勿关闭终端。如果要将其作为后台服务启动,则可以使用下面的命令:

$ nohup hive --service metastore &

这个命令将启动Hive Metastore服务,并在后台持续运行。

子任务1

子任务1描述

1、根据dwd层表统计每个省份、每个地区、每个月下单的数量和下单的总金额,存入MySQL数据库shtd_result的provinceeverymonth表中(表结构如下),然后在Linux的MySQL命令行中根据订单总数、订单 ......

......

抱歉,只有登录会员才可浏览!会员登录