大数据应用开发赛题第02套_任务B：离线数据处理

大数据应用开发赛题第02套任务B：离线数据处理子任务一：数据抽取

子任务描述

编写Scala代码，使用Spark将MySQL的shtd_store库中表user_info、sku_info、base_province、base_region、order_info、order_detail的数据增量抽取到Hudi的ods_ds_hudi库（路径为/user/hive/warehouse/ods_ds_hudi.db）的user_info、sku_info、base_province、base_region、order_info、order_detail中。

1、抽取shtd_store库中user_info的增量数据进入Hudi的ods_ds_hudi库中表user_info。根据ods_ds_hudi.user_info表中operate_time或create_time作为增量字段(即MySQL中每条数据取这两个时间中较大的那个时间作为增量字段去和ods里的这两个字段中较大的时间进行比较)，只将新增的数据抽入，字段名称、类型不变，同时添加分区，若operate_time为空，则用create_time填充，分区字段为etl_date，类型为String，且值为当前比赛日的前一天日期（分区字段格式为yyyyMMdd）。id作为primaryKey，operate_time作为preCombineField。使用spark-shell执行show partitions ods_ds_hudi.user_info命令，将结果截图粘贴至客户端桌面【Release\任务B提交结果.docx】中对应的任务序号下；

子任务分析

大数据应用开发赛题第02套题的任务与第01套题的任务相同，唯一区别就是将数据仓库Hive换成了数据湖工具Hudi。因此，这里只演示其中第一个需求，即“编写Scala代码，使用Spark将MySQL的shtd_store库中user_info的数 ......

......

抱歉，只有登录会员才可浏览！会员登录

小白学苑

让大数据学习更简单