2022-2023赛季高职大数据竞赛(样题解析)-数据挖掘-任务一:特征工程(一)

环境说明:

该模块均使用Scala编写,利用Spark与Flink相关库完成。

  • Spark可用在离线数据的推荐
  • Flink可用在实时数据的推荐

吐槽:Flink竟然要求用Scala来写,阿里接手后的Flink的Scala API是相当糟糕,希望下个赛季不必限定必须使用Scala。

本任务包含以下两个子任务:

任务描述

剔除订单主表与订单详情表中用户id与商品id不存在现有的维表中的记录,同时建议多利用缓存并充分考虑并行度来优化代码,达到更快的计算效果。

分析

  • 订单主表:即fact_order_master表;
  • 订单详情表:即fact_order_detail表;
  • 维表:dim_customer_inf和dim_product_info表。

启动Hive Metastore服务

Spark读写Hive表,需要访问Metastore服务。在终端中执行如下命令:

$ hive --service met ......
          

......

抱歉,只有登录会员才可浏览!会员登录


《Spark原理深入与编程实战》