查询数据
Hudi支持以下查询类型:
(1) 快照查询:查询查看到给定提交或压缩操作时表的最新快照。在对merge on read表进行合并的情况下,它会动态地合并最新文件片的基本文件和增量文件,从而公开近乎实时的数据(几分钟)。对于copy on write表,它提供了对现有parquet表的就地替换,同时提供了upsert/delete和其他写侧功能。
(2) 增量查询:查询只看到从给定的提交/压缩开始写入表的新数据。这有效地提供了变更流,以启用增量数据管道。
(3) 读优化查询:查询可以看到表自提交/压缩操作开始的最新快照。仅在最近的文件片中显示基文件/柱状文件并保证与非hudi柱状表相比具有相同的柱状查询性能。
不同查询类型之间的权衡见表12-5。
权衡 | 快照 | 读优化 |
---|---|---|
数据延迟 | 低 | 高 |
查询延迟 | 高 (合并base/columnar文件 + 基于行的delta/log文件) | 低(原始的base/columnar文件性能) |
将数据文件加载到一个DataFrame中,代码如下:
// 从Hud ............
抱歉,只有登录会员才可浏览!会员登录