数据挖掘-任务一:特征工程
启动Hive Metastore服务
Spark读写Hive表,需要访问Metastore服务。在终端中执行如下命令:
$ hive --service metastore
这将保持Hive Metastore服务一直运行,请勿关闭终端。如果要将其作为后台服务启动,则可以使用下面的命令:
$ nohup hive --service metastore &
这个命令将启动Hive Metastore服务,并在后台持续运行。
子任务1
子任务说明
根据dwd库中fact_orders表,将其转换为以下类型矩阵:其中A表示用户A,B表示用户B,矩阵中的【0,1】值为1表示A用户与B用户之间购买了1个相同的零件,0表示A用户与B用户之间没有购买过相同的零件。将矩阵保存为txt文件格式并存储在HDFS上,使用命令查看文件前2行,将执行结果截图粘贴至对应报告中;
子任务分析
- 要实现这个任务,涉及到两个小技巧:
- 表的自连接。可参考会员登录