2024年福建省大数据应用开发赛项样题解析-模块B:数据采集-任务二:实时数据采集
环境说明
服务端登录地址详见各模块服务端说明。
补充说明:各节点可通过Asbru 工具或SSH 客户端进行SSH 访问;
主节点MySQL 数据库用户名/密码:root/123456(已配置远程连接);
Hive 的配置文件位于主节点/opt/module/hive-3.1.2/conf/
Spark 任务在Yarn 上用Client 运行,方便观察日志;
建议使用gson 解析json 数据。
本任务共有两个子任务组成:
子任务1
子任务1描述
1.在主节点使用Flume 采集实时数据生成器XXXXX 端口的socket数据,将数据存入到Kafka 的Topic 中,使用Kafka 自带的消费者消 费Topic 中的数据,查看Topic 中的前1 条数据的结果,将查看命令与结果完整的截图粘贴至客户端桌面【Release\模块B 提交结果.docx】中对应的任务序号下;
子任务1分析
赛方为了不在样卷中透露过多信息,故意对任务说明进行了模糊处理,例如,没有明确指定数据生成器的端口,也没有指明要存入的Kafka的Topic名称,更没有对数据生成器进行说明。因此,我们这里将该子任务描述进行了具体化,基于PBCP2023以及其内嵌的数据源。 ......
......
抱歉,只有登录会员才可浏览!会员登录