配置Hudi
使用Spark数据源,可以插入和更新具有默认表类型(Copy on Write)的Hudi表。在每次写操作之后,还将展示如何同时读取快照数据和增量数据。
Hudi当前最新版本是0.12.1,支持Spark 2.4.3+和Spark 3.x版本。
配置Hudi
分别运行支持Hudi的spark-shell、pyspark和Spark SQL。
使用spark-shell时的命令如下:
// Spark 3.3 $ spark-shell \ --packages org.apache.hudi:hudi-spark3.3-bundle_2.12:0.12.1 \ --conf 'spark.serializer=org.apache.spark.serializer.KryoSerializer' \ --conf 'spark.sql.catalog.spark_catalog=org.apache.spark.sql.hudi.catalog.HoodieCatalog' \ --conf 'spark.sql.extensions=org.apache.spark.sql.hudi.HoodieSparkSessionExtension' // Spark 3.2 $ spark-shell \ --packages org.apache.hudi:hudi-spark3.2-bundle_2.12:0.12.1 \ --conf 'spark.serializer=org.apache.spark.serializer.KryoSerializer' \ --conf 'spark.sql.catalog.spark_catalog=org.apache.spark.sql.hudi.catalog.HoodieCatalog' \ ............
抱歉,只有登录会员才可浏览!会员登录