2022-2023赛季高职大数据竞赛(样题解析)-数据采集与实时计算-任务一：实时数据采集

抱歉，只有登录会员才可浏览！<a href='/member/login'>会员登录</a>

2022-2023赛季高职大数据竞赛(样题解析)-数据采集与实时计算-任务一：实时数据采集

环境说明

Flink任务在Yarn上用per job模式（即Job分离模式，不采用Session模式），方便Yarn回收资源。

本任务共有两个子任务组成：

实时数据采集子任务1
实时数据采集子任务2

子任务1

子任务1描述

1、在Master节点使用Flume采集实时数据生成器25001端口的socket数据（实时数据生成器脚本为Master节点/data_log目录下的gen_ds_data_to_socket脚本，该脚本为Master节点本地部署且使用socket传输），将数据存入到Kafka的Topic中（Topic名称为ods_mall_log，分区数为4），使用Kafka自带的消费者消费ods_mall（Topic）中的数据，查看前2条数据的结果；

分析：发送到ods_mall_log主题，消费ods_mall主题，能消费得到吗？？？

注：需先启动已配置好的Flume再启动脚本，否则脚本将无法成功启动，启动方式为进入/data_log目录执行./gen_ds_data_to_socket (如果没有权限，请执行授权命令chmod 777 /data_log/gen_ds_data_to_socket)

实现原理

技术参考1：会员登录

小白学苑

让大数据学习更简单

2022-2023赛季高职大数据竞赛(样题解析)-数据采集与实时计算-任务一：实时数据采集

子任务1