2023江苏省赛样题解析-数据采集与实时计算_任务一:实时数据采集
编写Scala工程代码,使用Flink消费Kafka中Topic为order的数据并进行相应的数据统计计算。
任务描述
1、在Master节点使用Flume采集实时数据生成器某端口的socket数据,将数据存入到Kafka的Topic中(topic名称为order,分区数为4),将Flume的配置截图粘贴至对应报告中;
2、Flume接收数据注入kafka 的同时,将数据备份到HDFS目录/user/test/flumebackup下,将备份结果截图粘贴至对应报告中。
任务分析
作为“考前划重点”的样题,该任务描述中简化和模糊了需求说明。
可以将该任务中的两个子任务当作一个任务完成,即Flume采用多路复用模式,在将接收的数据注入Kafka的同时,将数据也输出到HDFS中。其实现原理如下图所示:
由于任务描述中没有说明Socket端口号,这里假定使用10050端口。
技术参考1:安装Apache Flume。
技术参考2:Flume集成Kafka。
测试环境:本案例演示使用小白学苑开发的PBCP2022(个人大数据竞赛平台)。
Flume配置
在$FLUME_HOME/conf/目录下 ......
......
抱歉,只有登录会员才可浏览!会员登录