2025年江苏省职业院校技能大赛（高职组）大数据应用开发赛项_样题解析_任务C：数据采集与实时计算-子任务一：实时数据采集

抱歉，只有登录会员才可浏览！<a href='/member/login'>会员登录</a>

2025年江苏省高职-大数据应用开发赛项_样题解析_任务C：数据采集与实时计算-子任务一：实时数据采集

环境说明：

服务端登录地址详见各任务服务端说明。

补充说明：各节点可通过Asbru工具或SSH客户端进行SSH访问；

Flink任务在Yarn上用per job模式（即Job分离模式，不采用Session模式），方便Yarn回收资源。

任务描述

在主节点使用Flume采集实时数据生成器10050端口的socket数据（实时数据生成器脚本为主节点/data_log目录下的dj_data_gen脚本，该脚本为主节点本地部署且使用socket传输），将数据存入到Kafka的Topic中（Topic名称为order，分区数为4），使用Kafka自带的消费者消费order（Topic）中的数据，将前2条数据的结果截图粘贴至客户端桌面【Release\任务C提交结果.docx】中对应的任务序号下；

注：需先启动已配置好的Flume再启动脚本，否则脚本将无法成功启动，启动方式为进入/data_log目录执行./dj_data_gen(如果没有权限，请执行授权命令chmod 777 /data_log/dj_data_gen)

2、采用多路复用模式，Flume接收数据注入kafka 的同时，将数据备份到HDFS目录/user/test/flumebackup下，将查看备份目录下的第一个文件的前2条数据的命令与结果截图粘贴至客户端桌面【Release\任务C提交结果.docx】中对应的任务序号下。

任务分析

实现原理

......

抱歉，只有登录会员才可浏览！会员登录

小白学苑

让大数据学习更简单

2025年江苏省高职-大数据应用开发赛项_样题解析_任务C：数据采集与实时计算-子任务一：实时数据采集

环境说明：

任务描述

任务分析