开发赛题第10套_任务B：离线数据处理

抱歉，只有登录会员才可浏览！<a href='/member/login'>会员登录</a>

大数据应用开发赛题第10套任务B：离线数据处理子任务一：数据抽取

编写Scala代码，使用Spark将MySQL库中表EnvironmentData，ChangeRecord，BaseMachine，MachineData,ProduceRecord全量抽取到Hudi的hudi_gy_ods库（路径为/user/hive/warehouse/hudi_gy_ods.db）中对应表environmentdata，changerecord，basemachine， machinedata， producerecord中。

子任务分析

大数据应用开发赛题第10套题的离线数据处理任务与其他几套题的任务相同，唯一区别就是将数据仓库Hive换成了数据湖工具Hudi。

经过测试，Spark与Hudi的集成，在spark-shell下执行最为简单方便。因此本示例在spark-shell下完成。

在开始本示例之前，请将下载的hudi-spark3.1-bundle_2.12-0.12.2.jar包拷贝到$SPARK_HOME/jars/目录下，将hive-site.xml配置文件拷贝到$SPARK_HOME/conf/目录下。

点击以下链接，直接跳转到相应的子任务解析：

查看子任务1
查看子任务2
查看子任务3
查看子任务4
查看子任务5

子任务1描述

......

抱歉，只有登录会员才可浏览！会员登录

小白学苑

让大数据学习更简单

大数据应用开发赛题第10套任务B：离线数据处理子任务一：数据抽取

子任务1描述

小白学苑

让大数据学习更简单

大数据应用开发赛题第10套 任务B：离线数据处理 子任务一：数据抽取

子任务1描述

大数据应用开发赛题第10套任务B：离线数据处理子任务一：数据抽取