插入数据与插入覆盖
插入数据
Hudi的hudi-spark模块提供了DataSource API来将一个Spark DataFrame写入(和读取)到一个Hudi表。读写时可以指定多个选项:
- (1) HoodieWriteConfig:TABLE_NAME,必须项。
- (2) DataSourceWriteOptions:数据源写入选项。
每次向Hudi数据集写入DataFrame时,必须指定DataSourceWriteOptions。这些选项在写操作之间可能是相同的。
下面生成一些新的行程数据,将它们加载到DataFrame中,然后再将DataFrame写入Hudi表中,代码如下:
// 将数据加载到DataFrame val inserts = convertToStringList(dataGen.generateInserts(10)) val df = spark.read.json(spark.sparkContext.parallelize(inserts, 2)) df.printSchema() df.show(5) // 然后将该DataFrame写入Hudi表中 df.write.format("hudi") .options(getQuickstartWriteConfigs) .option(PRECOMBINE_FIELD_OPT_KEY, "ts") .option(RECORDKEY_FIELD_OPT_KEY, "uuid") .option(PARTITIONPATH_FIELD_OPT_KEY, "partitionpath") .option(TABLE_NAME, tableName) .m ............
抱歉,只有登录会员才可浏览!会员登录