2023年国赛_赛项规程样题解析(V2)-数据挖掘_子任务二:推荐系统
任务描述
1、根据子任务一的结果,计算出与用户 id 为 6708 的用户所购买相 同商品种类最多的前 10 位用户 id(只考虑他俩购买过多少种相 同的商品,不考虑相同的商品买了多少次),并根据 Hive 的 dwd 库中相关表或 MySQL 数据库 shtd_store 中相关表,获取到这 10 位用户已购买过的商品,并剔除用户 6708 已购买的商品,通过计 算这 10 位用户已购买的商品(剔除用户 6708 已购买的商品)与 用户 6708 已购买的商品数据集中商品的余弦相似度累加再求均 值,输出均值前 5 商品 id 作为推荐使用,将执行结果截图粘贴至 客户端桌面【Release\任务 C 提交结果.docx】中对应的任务序号 下。
结果格式如下:
------------------------推荐Top5结果如下------------------------ 相似度top1(商品id:1,平均相似度:0.983456) 相似度top2(商品id:71,平均相似度:0.782672) 相似度top3(商品id:22,平均相似度:0.7635246) 相似度top4(商品id:351,平均相似度:0.7335748) 相似度top5(商品id:14,平均相似度:0.522356)
实现原理
在本任务需求中,实际上需要完成两次相似度计算:
- 找到与用户 6708相似的其他用户(这已经在上一任务中完成过一次);
- 要求实现按商品相似度进行商品推荐,即从任务一中找出的最相似的10位用户所购买的商品集中,剔除用户 6708已经购买的商品,从剩下的商品中推荐最相似的5种商品。 ......
抱歉,只有登录会员才可浏览!会员登录