2023年国赛_赛项规程样题解析-数据挖掘_子任务二:推荐系统

任务描述

1. 根据子任务一的结果,计算出与用户id为6708的用户所购买相同商品种类最多的前10位用户id(只考虑他俩购买过多少种相同的商品,不考虑相同的商品买了多少次),并根据Hive的dwd库中相关表或MySQL数据库shtd_store中相关表,获取到这10位用户已购买过的商品,并剔除用户6708已购买的商品,通过计算这10位用户已购买的商品(剔除用户6708已购买的商品)与用户6708已购买的商品数据集中商品的余弦相似度累加再求均值,输出均值前5商品id作为推荐使用,将执行结果截图粘贴至客户端桌面【Release\任务C提交结果.docx】中对应的任务序号下。

结果格式如下:

------------------------推荐Top5结果如下------------------
相似度top1(商品id:1,平均相似度:0.98)
相似度top2(商品id:71,平均相似度:0.78)
相似度top3(商品id:22,平均相似度:0.76)
相似度top4(商品id:351,平均相似度:0.73)
相似度top5(商品id:14,平均相似度:0.52)

实现原理

在本任务需求中,实际上是要求实现按商品相似度进行商品推荐,即推荐与任务一中找出的10位用户(他们与用户1605所购买相同商品种类最多)所购买的商品最相似的5种商品。物品相似度计算原理如下图所示:

任务描述中明确要求使用余弦相似度算法来计算商品之间的相似度。

余弦相似度计算公式如下 ......

......

抱歉,只有登录会员才可浏览!会员登录


《Spark原理深入与编程实战》