2024-2025学年广东省高职“大数据应用开发”赛项样题3-任务D:数据采集与实时计算_解析

环境说明:

补充说明:选手自行启动相关服务,建议使用flink 本地模式运行任务,若虚拟机资源提示不足,可在idea 编写、测试和打包好程序后,关闭idea 编辑器,再进行flink run 本地模式运行任务。

点击以下链接,快速跳转到相应内容:

子任务一:实时数据采集

任务描述

1、在虚拟机bigdata-spark 使用Flume 采集实时数据生成器10050 端口的socket 数据(实时数据生成器脚本放在虚拟机bigdata-spark 的/opt/data目录下的flink_data),将数据存入到Kafka 的Topic 中,Topic 名称为order,分区数为3,使用Kafka 自带的消费者消费order(Topic)中的数 ......

......

抱歉,只有登录会员才可浏览!会员登录


《PySpark原理深入与编程实战》