2023江苏省赛样题解析-数据采集与实时计算

2023江苏省赛样题解析-数据采集与实时计算_任务一：实时数据采集

编写Scala工程代码，使用Flink消费Kafka中Topic为order的数据并进行相应的数据统计计算。

1、在Master节点使用Flume采集实时数据生成器某端口的socket数据，将数据存入到Kafka的Topic中（topic名称为order，分区数为4），将Flume的配置截图粘贴至对应报告中；

2、Flume接收数据注入kafka 的同时，将数据备份到HDFS目录/user/test/flumebackup下，将备份结果截图粘贴至对应报告中。

作为“考前划重点”的样题，该任务描述中简化和模糊了需求说明。

可以将该任务中的两个子任务当作一个任务完成，即Flume采用多路复用模式，在将接收的数据注入Kafka的同时，将数据也输出到HDFS中。其实现原理如下图所示：

由于任务描述中没有说明Socket端口号，这里假定使用10050端口。

技术参考1：安装Apache Flume。

技术参考2：Flume集成Kafka。

测试环境：本案例演示使用小白学苑开发的PBCP2022（个人大数据竞赛平台）。

在$FLUME_HOME/conf/目录下 ......

......

抱歉，只有登录会员才可浏览！会员登录