2022(7.20更新)高职大数据竞赛(任务书7)-离线数据处理任务3:指标计算

任务描述

使用Scala编写spark工程代码,并计算相关指标。

启动Hive Metastore服务

如果想要Spark能读写Hive中的数据表,需要访问Metastore服务。在终端中执行如下命令:

$ hive --service metastore

这将保持Hive Metastore服务一直运行,请勿关闭终端。如果要将其作为后台服务启动,则可以使用下面的命令:

$ nohup hive --service metastore &

这个命令将启动Hive Metastore服务,并在后台持续运行。

子任务1

子任务1描述

1、编写Scala代码,使用Spark根据dwd层的fact_change_record表关联dim_machine表统计每个车间中所有设备运行时长(即设备状态为“运行”)的中位数在哪个设备(数据个数为偶数时,两条数据原样保留输出),若某个设备运行状态当前未结束(即change_end_time值为空)则该状态不参与计算,计算结果存入MySQL数据库shtd_industry的machine_running_median表中(表结构如下),然后在Linux的MySQL命令行中根据所属车间、设备id均为降序排序,查询出前5条数据,将SQL语句与执行结果截图粘贴至对应报告中;

子任务1分析

  • 从需求可知,数据来自于两张表:fact_change_record表和dim_machin ......

    ......

    抱歉,只有登录会员才可浏览!会员登录


《PySpark原理深入与编程实战》