2023年职业院校技能大赛(国赛)-大数据应用开发赛项正式赛卷解析 - 任务B：离线数据处理

GZ033 大数据应用开发赛项正式赛卷解析 - 任务B：离线数据处理_子任务一：数据抽取

环境说明：

服务端登录地址详见各任务服务端说明。

补充说明：

各节点可通过Asbru工具或SSH客户端进行SSH访问；

主节点MySQL数据库用户名/密码：root/123456（已配置远程连接）；

Spark任务在Yarn上用Client运行，方便观察日志。

若Hudi中无数据，正常抽取

提示：在本卷中所示的ods、dwd层均为hudi中ods_ds_hudi、dwd_ds_hudi，不操作Hive中的数据

子任务一：数据抽取

子任务一描述：

编写Scala代码，使用Spark将MySQL的shtd_store库中表user_info、sku_info、base_province、base_region、order_info、order_detail的数据增量抽取到Hudi的ods_ds_hudi库（路径为/user/hive/warehouse/ods_ds_hudi.db）的user_info、sku_info、base_province、base_region、order_info、order_detail中。(若ods_ds_hudi库中部分表没有数据，正常抽取即可)

子任务一分析：

任务描述中的”若ods_ds_hudi库中部分表没有数据，正常抽取即可“，我的理解是：

- 如果有些表有数据，则做增量抽取；

- 如果有些表没有数据，则做全量抽取。

子任务一开发准备：

请注意，本人是在Windows本地 ......

......

抱歉，只有登录会员才可浏览！会员登录

小白学苑

让大数据学习更简单

GZ033 大数据应用开发赛项正式赛卷解析 - 任务B：离线数据处理_子任务一：数据抽取

子任务一：数据抽取