表批处理读写

Delta Lake支持Apache Spark DataFrame读写API提供的大部分选项，用于对表执行批量读写。

对于许多Delta Lake操作，可以在创建新的SparkSession时通过设置相应配置来启用与Apache Spark DataSourceV2和Catalog API（自3.0以来）的集成。设置配置的代码如下：

import org.apache.spark.sql.SparkSession

val spark = SparkSession
  .builder()
  .appName("...")
  .master("...")
  .config("spark.sql.extensions","io.delta.sql.DeltaSparkSessionExtension")
  .config("spark.sql.catalog.spark_catalog","org.apache.spark.sql.delta.catalog.DeltaCatalog")
  .getOrCreate()

或者，可以在使用spark-submit提交Spark应用程序时添加配置，或者在启动spark-shell或pyspark时指定它们作为命令行参数，命令如下：

$ spark-submit 
--conf "spark.sql.extensions=io.delta.sql.DeltaSparkSessionExtension" 
--conf "spark.sql.catalog.spark_catalog=org.apache.spark.sql.delta.catalog.DeltaCatalog"  
...

1.创建表

Delta Lake支持创建两种类型的表 ......

......

抱歉，只有登录会员才可浏览！会员登录

小白学苑

让大数据学习更简单

表批处理读写

1.创建表