表批处理读写

Delta Lake支持Apache Spark DataFrame读写API提供的大部分选项,用于对表执行批量读写。

对于许多Delta Lake操作,可以在创建新的SparkSession时通过设置相应配置来启用与Apache Spark DataSourceV2和Catalog API(自3.0以来)的集成。设置配置的代码如下:

import org.apache.spark.sql.SparkSession

val spark = SparkSession
  .builder()
  .appName("...")
  .master("...")
  .config("spark.sql.extensions","io.delta.sql.DeltaSparkSessionExtension")
  .config("spark.sql.catalog.spark_catalog","org.apache.spark.sql.delta.catalog.DeltaCatalog")
  .getOrCreate()

或者,可以在使用spark-submit提交Spark应用程序时添加配置,或者在启动spark-shell或pyspark时指定它们作为命令行参数,命令如下:

$ spark-submit 
--conf "spark.sql.extensions=io.delta.sql.DeltaSparkSessionExtension" 
--conf "spark.sql.catalog.spark_catalog=org.apache.spark.sql.delta.catalog.DeltaCatalog"  
...

1.创建表

Delta Lake支持创建两种类型的表 ......

......

抱歉,只有登录会员才可浏览!会员登录


《Spark原理深入与编程实战》