分区演变示例

本节通过一个应用示例来深入理解Iceberg的分区演变及其底层实现过程。该应用示例模拟了如下的业务场景：

某公司（暂且称为X公司）从2008年开始，开发软件业务，拓展客户和市场。其日志事件数据是按月分区存储在Iceberg数据湖中。随着业务的发展，日志事件信息发生的越来越频繁。公司决定，从2009年开始，将日志事件按天进行分区存储。为此，开发如下代码来完成这个场景。

为了简单起见，本示例使用一个简单的数据集logdata.csv，它模仿X公司开发的某些软件产品的日志表，包含三个字段列，分别为ts、log_id和log_msg。注意，数据中的ts列显示为与UNIX时间戳（以秒为单位）对应的long数据类型。

数据集logdata.csv文件内容如下：

1225526400,1,a
1225699200,2,b
1225785600,3,c
1226476800,4,d
1226908800,5,e
1226995200,6,f
1227513600,7,g
1227772800,8,h
1228032000,9,i
1228118400,10,j
1228377600,11,k
1228809600,12,l
1228982400,13,m
1229673600,14,n
1230019200,15,o
1230278400,16,p
1230451200,17,q
1230624000,18,r
1230710400,19,s
1230796800,20,t
1230969600,21,u
1231747200,22,v
1232352000,23,w	
1232784000,24,x
1233216000,25,y
1233302400,26,z

继续使用HadoopCatalog类型的catalog，基于Hadoop路径。名为hadoo ......

......

抱歉，只有登录会员才可浏览！会员登录

小白学苑

让大数据学习更简单

分区演变示例