赛题模拟实现-离线数据抽取

数据准备

这里使用的是Kaggle上的公共数据集,来自巴西olist商店电子商务订单。该数据集提供 2016 年至 2018 年在巴西多个市场下订单的 10 万份信息。其功能允许从多个维度查看订单:从订单状态、价格、付款和货运性能到客户位置、产品属性以及客户撰写的最后评论。 数据说明。

我们选取了其中4张表,E-R模型图如下:

对这4张表分别说明如下:

  • orders:订单表。每个订单包含多个商品项。
  • order_items:订单商品项表。
  • customers:客户信息表。
  • products:商品信息表。

因为数据集本身是文件性质,而竞赛任务中要求是从MySQL数据源抽取数据,因此我们准备一个MySQL数据源:将Olist上述四张表导入到MySQL中。请按以下说明导入:

1)先在MySQL中创建数据库olist:

mysql> create database olist;

2)然后执行以下命令导入数据库(在终端窗口执行):

$ mysql -uroot -p olis ......
          

......

抱歉,只有登录会员才可浏览!会员登录


《Spark原理深入与编程实战》