logo

小白学苑PBCP

PBCP, 让大数据竞赛更简单!

大数据应用开发赛题第10套_任务B:离线数据处理_子任务三:指标计算

子任务1:使用DolphinScheduler完成第2、3、4题任务代码的调度,请查看这里

点击以下链接,跳转到其余相应的指标计算子任务:

子任务2描述

编写scala代码,使用Spark根据hudi_gy_dwd层的fact_machine_data表统计出每日每台设备,状态为“运行”的时长(若运行无结束时间,则需根据时间判断这个设备的运行状态的下一个状态是哪条数据,将下一个状态的数据的时间置为这个设备运行状态的结束时间,如果设备数据的运行状态不存在下一个状态,则该设备这个阶段数据的运行状态不参与计算,即该设备的这个阶段数据的运行状态时长按0计算),将结果数据写入hudi_gy_dws层的表machine_data_total_time中,然后使用spark-sql的cli根据machine_id降序和machine_record_date升序排序查询前5条数据,将SQL语句复制粘贴至客户端桌面【Release\任务B提交结果.docx】中对应的任务序号下,将执行结果截图粘贴至客户端桌面【Release\任务B提交结果.docx】中对应的任务序号下;

dws.machine_data_total_time: ......

......

抱歉,只有登录会员才可浏览!会员登录