2022(7.20更新)高职大数据竞赛(任务书7)-离线数据处理任务3:指标计算
任务描述
使用Scala编写spark工程代码,并计算相关指标。
启动Hive Metastore服务
如果想要Spark能读写Hive中的数据表,需要访问Metastore服务。在终端中执行如下命令:
$ hive --service metastore
这将保持Hive Metastore服务一直运行,请勿关闭终端。如果要将其作为后台服务启动,则可以使用下面的命令:
$ nohup hive --service metastore &
这个命令将启动Hive Metastore服务,并在后台持续运行。
子任务1
子任务1描述
1、编写Scala代码,使用Spark根据dwd层的fact_change_record表关联dim_machine表统计每个车间中所有设备运行时长(即设备状态为“运行”)的中位数在哪个设备(数据个数为偶数时,两条数据原样保留输出),若某个设备运行状态当前未结束(即change_end_time值为空)则该状态不参与计算,计算结果存入MySQL数据库shtd_industry的machine_running_median表中(表结构如下),然后在Linux的MySQL命令行中根据所属车间、设备id均为降序排序,查询出前5条数据,将SQL语句与执行结果截图粘贴至对应报告中;
子任务1分析
-
从需求可知,数据来自于两张表:fact_change_record表和dim_machin ......
......
抱歉,只有登录会员才可浏览!会员登录