配置Hudi

使用Spark数据源,可以插入和更新具有默认表类型(Copy on Write)的Hudi表。在每次写操作之后,还将展示如何同时读取快照数据和增量数据。

Hudi当前最新版本是0.12.1,支持Spark 2.4.3+和Spark 3.x版本。

配置Hudi

分别运行支持Hudi的spark-shell、pyspark和Spark SQL。

使用spark-shell时的命令如下:

// Spark 3.3
$ spark-shell \
  --packages org.apache.hudi:hudi-spark3.3-bundle_2.12:0.12.1 \
  --conf 'spark.serializer=org.apache.spark.serializer.KryoSerializer' \
  --conf 'spark.sql.catalog.spark_catalog=org.apache.spark.sql.hudi.catalog.HoodieCatalog' \
  --conf 'spark.sql.extensions=org.apache.spark.sql.hudi.HoodieSparkSessionExtension'

// Spark 3.2
$ spark-shell \
  --packages org.apache.hudi:hudi-spark3.2-bundle_2.12:0.12.1 \
  --conf 'spark.serializer=org.apache.spark.serializer.KryoSerializer' \
  --conf 'spark.sql.catalog.spark_catalog=org.apache.spark.sql.hudi.catalog.HoodieCatalog' \ ......
          

......

抱歉,只有登录会员才可浏览!会员登录


《Spark原理深入与编程实战》