表批处理读写
Delta Lake支持Apache Spark DataFrame读写API提供的大部分选项,用于对表执行批量读写。
对于许多Delta Lake操作,可以在创建新的SparkSession时通过设置相应配置来启用与Apache Spark DataSourceV2和Catalog API(自3.0以来)的集成。设置配置的代码如下:
import org.apache.spark.sql.SparkSession val spark = SparkSession .builder() .appName("...") .master("...") .config("spark.sql.extensions","io.delta.sql.DeltaSparkSessionExtension") .config("spark.sql.catalog.spark_catalog","org.apache.spark.sql.delta.catalog.DeltaCatalog") .getOrCreate()
或者,可以在使用spark-submit提交Spark应用程序时添加配置,或者在启动spark-shell或pyspark时指定它们作为命令行参数,命令如下:
$ spark-submit --conf "spark.sql.extensions=io.delta.sql.DeltaSparkSessionExtension" --conf "spark.sql.catalog.spark_catalog=org.apache.spark.sql.delta.catalog.DeltaCatalog" ...
1.创建表
Delta Lake支持创建两种类型的表 ......
......
抱歉,只有登录会员才可浏览!会员登录