2022-2023赛季高职大数据竞赛(样题解析)-数据采集与实时计算-任务一:实时数据采集

环境说明

Flink任务在Yarn上用per job模式(即Job分离模式,不采用Session模式),方便Yarn回收资源。

本任务共有两个子任务组成:

子任务1

子任务1描述

1、在Master节点使用Flume采集实时数据生成器25001端口的socket数据(实时数据生成器脚本为Master节点/data_log目录下的gen_ds_data_to_socket脚本,该脚本为Master节点本地部署且使用socket传输),将数据存入到Kafka的Topic中(Topic名称为ods_mall_log,分区数为4),使用Kafka自带的消费者消费ods_mall(Topic)中的数据,查看前2条数据的结果;

分析:发送到ods_mall_log主题,消费ods_mall主题,能消费得到吗???

注:需先启动已配置好的Flume再启动脚本,否则脚本将无法成功启动,启动方式为进入/data_log目录执行./gen_ds_data_to_socket (如果没有权限,请执行授权命令chmod 777 /data_log/gen_ds_data_to_socket)

实现原理

技术参考1:会员登录


《PySpark原理深入与编程实战》