logo

小白学苑PBCP

PBCP, 让大数据竞赛更简单!

2023湖北省赛样题解析-模块D:离线数据处理-任务一:离线数据清洗

环境说明

服务端登录地址详见各模块服务端说明。

补充说明:各节点可通过Asbru 工具或SSH 客户端进行SSH 访问;

主节点MySQL 数据库用户名/密码:root/123456(已配置远程连接);

Hive 的配置文件位于主节点/opt/module/hive-3.1.2/conf/;

Spark 任务在Yarn 上用Client 运行,方便观察日志;

ClickHouse 的jdbc 连接端口8123,用户名/密码:default/123456,命令行客户端(tcp)端口9001;

建议使用gson 解析json 数据。


任务要求:编写Scala 工程代码,将ods 库中表table1、table2、table3、table4、table5、table6、table7、table8、table9、table10、table11抽取到Hive 的dwd 库中对应表中。表中有涉及到timestamp 类型的,均要求按照yyyy-MM-dd HH:mm:ss,不记录毫秒数,若原数据中只有年月日,则在时分秒的位置添加00:00:00,添加之后使其符合yyyy-MM-dd HH:mm:ss。

本任务共有12个子任务组成(真的有必要吗?)。仔细分析这12个子任务,可将其归为四类任务,如列表中所示(点击正文链接,可快速跳转到相应子任务实现部分):