2025年江苏省高职-大数据应用开发赛项_样题解析_任务B:数据挖掘-子任务一:特征工程

环境说明:

服务端登录地址详见各任务服务端说明。

补充说明:各节点可通过Asbru工具或SSH客户端进行SSH访问;

主节点MySQL数据库用户名/密码:root/123456(已配置远程连接);

Spark任务在Yarn上用Client运行,方便观察日志。

该任务均使用Scala编写,利用Spark相关库完成。


单击以下链接,快速跳转到相关内容。

任务描述

剔除订单信息表与订单详细信息表中用户id与商品id不存在于现有的维表中的记录,同时建议多利用缓存并充分考虑并行度来优化代码,达到更快的计算效果。

子任务1

子任务1描述

1、据Hudi的dwd_ds_hudi库中相关表或MySQL数据库shtd_store中订单相关表(order_detail、order_info、sku_info),对用户购买过的商品进行去重,将其转换为以下格式:第一列为用户id mapping,第二列为用户购买过的商品 ......

......

抱歉,只有登录会员才可浏览!会员登录


《Spark原理深入与编程实战》