logo

小白学苑PBCP

PBCP, 让大数据竞赛更简单!

2022-2023赛季高职大数据竞赛(样题解析)-数据挖掘-任务二:推荐系统(一)

任务描述

根据上述任务的结果,计算出与用户customer_id为5811的用户所购买相同商品种类最多的前10位用户id(只考虑他俩购买过多少种相同的商品,不考虑相同的商品买了多少次),并根据Hive的dwd库中相关表或MySQL数据库shtd_store中相关表,获取到这10位用户已购买过的商品,并剔除用户5811已购买的商品,通过计算这10位用户已购买的商品(剔除用户5811已购买的商品)与用户5811已购买的商品数据集中商品的余弦相似度累加再求均值,输出均值前5商品id作为推荐使用。

结果格式如下:

------------------------推荐Top5结果如下------------------------
相似度top1(商品id:1,平均相似度:0.983456)
相似度top2(商品id:71,平均相似度:0.782672)
相似度top3(商品id:22,平均相似度:0.7635246)
相似度top4(商品id:351,平均相似度:0.7335748)
相似度top5(商品id:14,平均相似度:0.522356)

实现原理

在本任务需求中,实际上需要完成两次相似度计算:

  • 找到与用户5811相似的其他用户(这已经在上一任务中完成过一次);
  • 要求实现按商品相似度进行商品推荐,即从任务一中找出的最相似的10位用户所购买的商品集中,剔除用户5811已经购买的商品, ......

    ......

    抱歉,只有登录会员才可浏览!会员登录