logo

小白学苑PBCP

PBCP, 让大数据竞赛更简单!

数据挖掘-任务一:特征工程

启动Hive Metastore服务

Spark读写Hive表,需要访问Metastore服务。在终端中执行如下命令:

$ hive --service metastore

这将保持Hive Metastore服务一直运行,请勿关闭终端。如果要将其作为后台服务启动,则可以使用下面的命令:

$ nohup hive --service metastore &

这个命令将启动Hive Metastore服务,并在后台持续运行。

子任务1

子任务说明

根据dwd库中fact_orders表,将其转换为以下类型矩阵:其中A表示用户A,B表示用户B,矩阵中的【0,1】值为1表示A用户与B用户之间购买了1个相同的零件,0表示A用户与B用户之间没有购买过相同的零件。将矩阵保存为txt文件格式并存储在HDFS上,使用命令查看文件前2行,将执行结果截图粘贴至对应报告中;

子任务分析

  • 要实现这个任务,涉及到两个小技巧:
  • 表的自连接。可参考会员登录