GZ033 大数据应用开发赛项正式赛卷解析 - 任务B:离线数据处理_子任务一:数据抽取
环境说明:
服务端登录地址详见各任务服务端说明。
补充说明:
各节点可通过Asbru工具或SSH客户端进行SSH访问;
主节点MySQL数据库用户名/密码:root/123456(已配置远程连接);
Spark任务在Yarn上用Client运行,方便观察日志。
若Hudi中无数据,正常抽取
提示:在本卷中所示的ods、dwd层均为hudi中ods_ds_hudi、dwd_ds_hudi,不操作Hive中的数据
子任务一:数据抽取
子任务一描述:
编写Scala代码,使用Spark将MySQL的shtd_store库中表user_info、sku_info、base_province、base_region、order_info、order_detail的数据增量抽取到Hudi的ods_ds_hudi库(路径为/user/hive/warehouse/ods_ds_hudi.db)的user_info、sku_info、base_province、base_region、order_info、order_detail中。(若ods_ds_hudi库中部分表没有数据,正常抽取即可)
子任务一分析:
任务描述中的”若ods_ds_hudi库中部分表没有数据,正常抽取即可“,我的理解是:
- 如果有些表有数据,则做增量抽取;
- 如果有些表没有数据,则做全量抽取。
子任务一开发准备:
请注意,本人是在Windows本地 ......
......
抱歉,只有登录会员才可浏览!会员登录