logo

小白学苑PBCP

PBCP, 让大数据竞赛更简单!

数据挖掘-任务二_推荐系统

启动Hive Metastore服务

Spark读写Hive表,需要访问Metastore服务。在终端中执行如下命令:

$ hive --service metastore

这将保持Hive Metastore服务一直运行,请勿关闭终端。如果要将其作为后台服务启动,则可以使用下面的命令:

$ nohup hive --service metastore &

这个命令将启动Hive Metastore服务,并在后台持续运行。

任务说明

根据任务一的结果,获取与该用户相似度(矩阵内的值最高)最高的前10个用 户, 并结合hive 中dwd 层的fact_orders 表、fact_lineitem 表、 fact_part_machine_data表,获取到这10位用户已购买过的零部件,并剔除该 用户已购买的零部件,并通过计算用户已购买产品与该数据集中余弦相似度累 加,输出前5产品作为推荐使用。将输出结果保存至MySQL的part_machine表中。 然后在Linux的MySQL命令行中查询出前5条数据,将SQL语句与执行结果截图粘 贴至对应报告中。

实现原理

正在开发中......

实现过程

正在开发中......