2024年福建省大数据应用开发赛项样题解析-模块D:离线数据处理-任务二:离线指标计算

环境说明

服务端登录地址详见各模块服务端说明。

补充说明:各节点可通过Asbru 工具或SSH 客户端进行SSH 访问;

主节点MySQL 数据库用户名/密码:root/123456(已配置远程连接);

Hive 的配置文件位于主节点/opt/module/hive-3.1.2/conf/;

Spark 任务在Yarn 上用Client 运行,方便观察日志;

ClickHouse 的jdbc 连接端口8123,用户名/密码:default/123456,命令行客户端(tcp)端口9001;

建议使用gson 解析json 数据。


本任务共有三个子任务组成。点击正文链接,可快速跳转到相应子任务实现部分:

子任务1

子任务1描述

1.编写Scala 工程代码,根据dwd 的订单表,求各省份下单时间为XXXX 年的支付转化率,并将计算结果写入clickhouse 的ds_result库的表。在Linux 的clickhouse 命令行中根据ranking 字段查询出转化率前三的省份,将SQL 语句与执行结果截图粘贴至客户端桌面【Release\模块D 提交结果.docx】中对应的任务 ......

......

抱歉,只有登录会员才可浏览!会员登录


《Flink原理深入与编程实战》