小白学苑PBCP

PBCP, 让大数据竞赛更简单!

抱歉，只有登录会员才可浏览！<a href='/member/login'>会员登录</a>

2022-2023赛季高职大数据竞赛(样题解析)-数据挖掘-任务一：特征工程（一）

环境说明：

该模块均使用Scala编写，利用Spark与Flink相关库完成。

Spark可用在离线数据的推荐
Flink可用在实时数据的推荐

吐槽：Flink竟然要求用Scala来写，阿里接手后的Flink的Scala API是相当糟糕，希望下个赛季不必限定必须使用Scala。

本任务包含以下两个子任务：

特征工程子任务1
特征工程子任务2

任务描述

剔除订单主表与订单详情表中用户id与商品id不存在现有的维表中的记录，同时建议多利用缓存并充分考虑并行度来优化代码，达到更快的计算效果。

分析

订单主表：即fact_order_master表；
订单详情表：即fact_order_detail表；
维表：dim_customer_inf和dim_product_info表。

启动Hive Metastore服务

......

......

抱歉，只有登录会员才可浏览！会员登录