大数据应用开发赛题第02套 任务B:离线数据处理 子任务一:数据抽取

子任务描述

编写Scala代码,使用Spark将MySQL的shtd_store库中表user_info、sku_info、base_province、base_region、order_info、order_detail的数据增量抽取到Hudi的ods_ds_hudi库(路径为/user/hive/warehouse/ods_ds_hudi.db)的user_info、sku_info、base_province、base_region、order_info、order_detail中。

1、抽取shtd_store库中user_info的增量数据进入Hudi的ods_ds_hudi库中表user_info。根据ods_ds_hudi.user_info表中operate_time或create_time作为增量字段(即MySQL中每条数据取这两个时间中较大的那个时间作为增量字段去和ods里的这两个字段中较大的时间进行比较),只将新增的数据抽入,字段名称、类型不变,同时添加分区,若operate_time为空,则用create_time填充,分区字段为etl_date,类型为String,且值为当前比赛日的前一天日期(分区字段格式为yyyyMMdd)。id作为primaryKey,operate_time作为preCombineField。使用spark-shell执行show partitions ods_ds_hudi.user_info命令,将结果截图粘贴至客户端桌面【Release\任务B提交结果.docx】中对应的任务序号下;

子任务分析

大数据应用开发赛题第02套题的任务与第01套题的任务相同,唯一区别就是将数据仓库Hive换成了数据湖工具Hudi。因此,这里只演示其中第一个需求,即“编写Scala代码,使用Spark将MySQL的shtd_store库中user_info的数 ......

......

抱歉,只有登录会员才可浏览!会员登录


《Flink原理深入与编程实战》