2023广东省赛样题解析-数据采集:实时数据采集_子任务2

任务描述

2、 实时脚本启动后,在主节点进入到maxwell的解压后目录下,配置相关文件并启动,读取主节点MySQL数据的binlog日志到Kafka的Topic中。使用Kafka自带的消费者消费Topic中的数据,查看Topic中的前1条数据的结果,将查看命令与结果完整的截图粘贴至对应报告中。

任务分析

根据题意,需要实现的任务流程如下所示:

    向mysql插入数据=> maxwell监控mysql binlog日志 => Kafka Sink => Kafka消费者脚本

因此,需要完成以下几个任务:

  • 准备mysql数据源(PBCP2023已经内置了该数据源;比赛环境也应该是已经有的);
  • 配置maxwell,监控ds_realtime_db数据库的binlog日志;
  • 创建Kafka Topic;
  • 依次执行:Kafka消费者脚本 -> maxwell -> 向ds_realtime_db插入数据。

参考步骤

1. 测试mysql数据源

在PBCP2023的mysql数据库中,有一个名为ds_db01的数据库,其中包括订单表order_master和订单明细表order_detail。

其中订单主表(order_master)的数据如下:

+----------+------------------+- ......
          

......

抱歉,只有登录会员才可浏览!会员登录


《PySpark原理深入与编程实战》