2022-2023赛季高职大数据竞赛(样题解析)-数据挖掘-任务一:特征工程(一)
环境说明:
该模块均使用Scala编写,利用Spark与Flink相关库完成。
- Spark可用在离线数据的推荐
- Flink可用在实时数据的推荐
吐槽:Flink竟然要求用Scala来写,阿里接手后的Flink的Scala API是相当糟糕,希望下个赛季不必限定必须使用Scala。
本任务包含以下两个子任务:
任务描述
剔除订单主表与订单详情表中用户id与商品id不存在现有的维表中的记录,同时建议多利用缓存并充分考虑并行度来优化代码,达到更快的计算效果。
分析
- 订单主表:即fact_order_master表;
- 订单详情表:即fact_order_detail表;
- 维表:dim_customer_inf和dim_product_info表。
启动Hive Metastore服务
Spark读写Hive表,需要访问Metastore服务。在终端中执行如下命令:
$ hive --service met ............
抱歉,只有登录会员才可浏览!会员登录