抱歉,只有登录会员才可浏览!<a href='/member/login'>会员登录</a>

2023贵州省赛样题解析-数据采集:离线数据采集

任务描述

编写Scala工程代码,将MySQL库中表table1的数据增量抽取到Hive的ods库中对应表table1中。

1、 抽取库中table1的增量数据进入Hive的ods库中表table1。根据ods.table1表中modified_time作为增量字段,只将新增的数据抽入,字段名称、类型不变,同时添加静态分区,分区字段为etl_date,类型为String,且值为当前比赛日的前一天日期(分区字段格式为yyyyMMdd)。使用hive cli执行show partitions ods.table1命令,将执行结果截图粘贴至对应报告中;

题目分析

作为样题,该子任务模糊了具体的表,代之以简单的表名table1,具体的表结构一无所知。推测在真实比赛题中,会明确表table1的结构描述(请参考“2023省赛专区”中离线数据采集部分)。为此,我们将改任务补充清晰如下:

1、抽取ds_db01库中order_master的增量数据进入Hive的ods库中表order_master,根据ods.order_master表中modified_time作为增量字段,只将新增的数据抽入,字段名称、类型不变,同时添加静态分区,分区字段为etl_date,类型为String,且值为当前日期的前一天日期(分区字段格式为yyyyMMdd)。使用hive cli执行show partitions ods.order_master命令,将执行结果截图粘贴至对应报告中;

其中,order_master表位于PBCP2023平台上的MySQL中的ds_db01数据库中。

任务分析:

从任务要求可知,这是要求实现增量查询和增量写入。为此,我们首先需要构造一个存量表(比赛时可能不需要,如果已经带有存量表的话 ......

......

抱歉,只有登录会员才可浏览!会员登录


《Spark原理深入与编程实战》