大数据应用开发赛题第10套 任务B:离线数据处理 子任务二:数据清洗
编写Scala代码,使用Spark将ods库中相应表数据全量抽取到Hudi的hudi_gy_dwd库(路径为/user/hive/warehouse/hudi_gy_dwd.db)中对应表中。表中有涉及到timestamp类型的,均要求按照yyyy-MM-dd HH:mm:ss,不记录毫秒数,若原数据中只有年月日,则在时分秒的位置添加00:00:00,添加之后使其符合yyyy-MM-dd HH:mm:ss。
子任务分析
大数据应用开发赛题第10套题的离线数据处理任务与其他几套题的任务相同,唯一区别就是将数据仓库Hive换成了数据湖工具Hudi。
经过测试,Spark与Hudi的集成,在spark-shell下执行最为简单方便。因此本示例在spark-shell下完成。
在开始本示例之前,请将下载的hudi-spark3.1-bundle_2.12-0.12.2.jar包拷贝到$SPARK_HOME/jars/目录下,将hive-site.xml配置文件拷贝到$SPARK_HOME/conf/目录下。
点击以下链接,直接跳转到相应的子任务解析: