2022(7.20更新)高职大数据竞赛(任务书7)-离线数据处理任务3：指标计算

任务描述

使用Scala编写spark工程代码，并计算相关指标。

启动Hive Metastore服务

如果想要Spark能读写Hive中的数据表，需要访问Metastore服务。在终端中执行如下命令：

$ hive --service metastore

这将保持Hive Metastore服务一直运行，请勿关闭终端。如果要将其作为后台服务启动，则可以使用下面的命令：

$ nohup hive --service metastore &

这个命令将启动Hive Metastore服务，并在后台持续运行。

子任务1

子任务1描述

1、编写Scala代码，使用Spark根据dwd层的fact_change_record表关联dim_machine表统计每个车间中所有设备运行时长（即设备状态为“运行”）的中位数在哪个设备（数据个数为偶数时，两条数据原样保留输出），若某个设备运行状态当前未结束（即change_end_time值为空）则该状态不参与计算，计算结果存入MySQL数据库shtd_industry的machine_running_median表中（表结构如下），然后在Linux的MySQL命令行中根据所属车间、设备id均为降序排序，查询出前5条数据，将SQL语句与执行结果截图粘贴至对应报告中;

子任务1分析

从需求可知，数据来自于两张表：fact_change_record表和dim_machin ......
......

抱歉，只有登录会员才可浏览！会员登录

小白学苑

让大数据学习更简单

2022(7.20更新)高职大数据竞赛(任务书7)-离线数据处理任务3：指标计算

任务描述

启动Hive Metastore服务

子任务1