探索Iceberg表

为了检查表的历史、快照和其他元数据,Iceberg支持元数据表。

元数据表通过在原始表名之后添加元数据表名来标识。例如,db.table的历史记录是通过db.table.history表读取的。也就是说,元数据表,如history和snapshots,可以使用Iceberg表名作为命名空间。

例如,从prod.db.table的files元数据表中读取,运行以下语句:

SELECT * FROM prod.db.table.files

注意: 从Spark 3.0开始,检查的表名格式(catalog.database.table.metadata)与Spark的默认catalog(spark_catalog)不兼容。如果已经替换了默认目录,则可能需要使用DataFrameReader API来检查表。

1. History历史表

要显示表历史,代码如下:

spark.sql("SELECT * FROM prod.db.table.history").show()

执行以上代码,输出结果如图11-22所示。

这显示了一个回滚的提交。该示例有两个具有相同父节点的快照,其中一个不是当前表状态的祖先。

2. Snapshots快照表

要显示一个表的有效快 ......

......

抱歉,只有登录会员才可浏览!会员登录


《PySpark原理深入与编程实战》