配置Hudi

使用Spark数据源，可以插入和更新具有默认表类型（Copy on Write）的Hudi表。在每次写操作之后，还将展示如何同时读取快照数据和增量数据。

Hudi当前最新版本是0.12.1，支持Spark 2.4.3+和Spark 3.x版本。

配置Hudi

分别运行支持Hudi的spark-shell、pyspark和Spark SQL。

使用spark-shell时的命令如下：

// Spark 3.3 $ spark-shell \ --packages org.apache.hudi:hudi-spark3.3-bundle_2.12:0.12.1 \ --conf 'spark.serializer=org.apache.spark.serializer.KryoSerializer' \ --conf 'spark.sql.catalog.spark_catalog=org.apache.spark.sql.hudi.catalog.HoodieCatalog' \ --conf 'spark.sql.extensions=org.apache.spark.sql.hudi.HoodieSparkSessionExtension' // Spark 3.2 $ spark-shell \ --packages org.apache.hudi:hudi-spark3.2-bundle_2.12:0.12.1 \ --conf 'spark.serializer=org.apache.spark.serializer.KryoSerializer' \ --conf 'spark.sql.catalog.spark_catalog=org.apache.spark.sql.hudi.catalog.HoodieCatalog' \ ......

......

抱歉，只有登录会员才可浏览！会员登录

小白学苑

让大数据学习更简单

配置Hudi

配置Hudi