2022-2023赛季高职大数据竞赛(样题解析)-数据挖掘-任务一：特征工程（一）

环境说明：

该模块均使用Scala编写，利用Spark与Flink相关库完成。

吐槽：Flink竟然要求用Scala来写，阿里接手后的Flink的Scala API是相当糟糕，希望下个赛季不必限定必须使用Scala。

本任务包含以下两个子任务：

剔除订单主表与订单详情表中用户id与商品id不存在现有的维表中的记录，同时建议多利用缓存并充分考虑并行度来优化代码，达到更快的计算效果。

分析

Spark读写Hive表，需要访问Metastore服务。在终端中执行如下命令：

$ hive --service met ......

......

抱歉，只有登录会员才可浏览！会员登录

小白学苑