2025年江苏省高职-大数据应用开发赛项_样题解析_任务B:数据挖掘-子任务一:特征工程
环境说明:
服务端登录地址详见各任务服务端说明。
补充说明:各节点可通过Asbru工具或SSH客户端进行SSH访问;
主节点MySQL数据库用户名/密码:root/123456(已配置远程连接);
Spark任务在Yarn上用Client运行,方便观察日志。
该任务均使用Scala编写,利用Spark相关库完成。
单击以下链接,快速跳转到相关内容。
任务描述
剔除订单信息表与订单详细信息表中用户id与商品id不存在于现有的维表中的记录,同时建议多利用缓存并充分考虑并行度来优化代码,达到更快的计算效果。
子任务1
子任务1描述
1、据Hudi的dwd_ds_hudi库中相关表或MySQL数据库shtd_store中订单相关表(order_detail、order_info、sku_info),对用户购买过的商品进行去重,将其转换为以下格式:第一列为用户id mapping,第二列为用户购买过的商品 ......
......
抱歉,只有登录会员才可浏览!会员登录