大数据应用开发赛题第10套 任务B:离线数据处理 子任务一:数据抽取

编写Scala代码,使用Spark将MySQL库中表EnvironmentData,ChangeRecord,BaseMachine,MachineData,ProduceRecord全量抽取到Hudi的hudi_gy_ods库(路径为/user/hive/warehouse/hudi_gy_ods.db)中对应表environmentdata,changerecord,basemachine, machinedata, producerecord中。

子任务分析

大数据应用开发赛题第10套题的离线数据处理任务与其他几套题的任务相同,唯一区别就是将数据仓库Hive换成了数据湖工具Hudi。

经过测试,Spark与Hudi的集成,在spark-shell下执行最为简单方便。因此本示例在spark-shell下完成。

在开始本示例之前,请将下载的hudi-spark3.1-bundle_2.12-0.12.2.jar包拷贝到$SPARK_HOME/jars/目录下,将hive-site.xml配置文件拷贝到$SPARK_HOME/conf/目录下。

点击以下链接,直接跳转到相应的子任务解析:

子任务1描述

......

......

抱歉,只有登录会员才可浏览!会员登录


《Flink原理深入与编程实战》