logo

小白学苑PBCP

PBCP, 让大数据竞赛更简单!

2023浙江省赛样题解析-离线数据处理

一、离线数据清洗

任务描述

编写Scala工程代码,将ods库中表table1抽取到Hive的dwd库中对应表中。表中有涉及到timestamp类型的,均要求按照yyyy-MM-dd HH:mm:ss,不记录毫秒数,若原数据中只有年月日,则在时分秒的位置添加00:00:00,添加之后使其符合yyyy-MM-dd HH:mm:ss。

1、 抽取ods库中table1表结合dim_table1最新分区现有的数据,根据id合并数据到dwd库中dim_table1的分区表(合并是指对dwd层数据进行插入或修改,需修改的数据以id为合并字段,根据modified_time排序取最新的一条),分区字段为etl_date且值与ods库的相对应表该值相等,同时若operate_time为空,则用create_time填充,并添加dwd_insert_user、dwd_insert_time、dwd_modify_user、dwd_modify_time四列,其中dwd_insert_user、dwd_modify_user均填写“user1”。若该条记录第一次进入数仓dwd层则dwd_insert_time、dwd_modify_time均存当前操作时间,并进行数据类型转换。若该数据在进入dwd层时发生了合并修改,则dwd_insert_time时间不变,dwd_modify_time存当 ......

......

抱歉,只有登录会员才可浏览!会员登录