2022(7.20更新)高职大数据竞赛(任务书一)-数据采集与实时计算任务一：实时数据采集

抱歉，只有登录会员才可浏览！<a href='/member/login'>会员登录</a>

编写Scala工程代码，使用Flink消费Kafka中Topic为order的数据并进行相应的数据统计计算。

子任务说明

1、在Master节点使用Flume采集实时数据生成器10050端口的socket数据，将数据存入到Kafka的Topic中（Topic名称为order，分区数为4），使用Kafka自带的消费者消费order（Topic）中的数据，将前2条数据的结果截图粘贴至对应报告中；

2、采用多路复用模式，Flume接收数据注入kafka 的同时，将数据备份到HDFS目录/user/test/flumebackup下，将查看备份目录下的第一个文件的前2条数据的命令与结果截图粘贴至对应报告中。

实现原理

技术参考1：安装Apache Flume。

技术参考2：Flume集成Kafka。

测试环境：本案例演示使用小白学苑开发的PBCP（个人大数据竞赛平台）。

Flume配置

在$FLUME_HOME/conf/目录下，创建一个flume配置文件gs20220720.conf，编辑内容如下：

a1. ......

......

抱歉，只有登录会员才可浏览！会员登录

小白学苑