赛题模拟实现-离线数据抽取
数据准备
这里使用的是Kaggle上的公共数据集,来自巴西olist商店电子商务订单。该数据集提供 2016 年至 2018 年在巴西多个市场下订单的 10 万份信息。其功能允许从多个维度查看订单:从订单状态、价格、付款和货运性能到客户位置、产品属性以及客户撰写的最后评论。 数据说明。
我们选取了其中4张表,E-R模型图如下:
对这4张表分别说明如下:
- orders:订单表。每个订单包含多个商品项。
- order_items:订单商品项表。
- customers:客户信息表。
- products:商品信息表。
因为数据集本身是文件性质,而竞赛任务中要求是从MySQL数据源抽取数据,因此我们准备一个MySQL数据源:将Olist上述四张表导入到MySQL中。请按以下说明导入:
1)先在MySQL中创建数据库olist:
mysql> create database olist;
2)然后执行以下命令导入数据库(在终端窗口执行):
$ mysql -uroot -p olis ............
抱歉,只有登录会员才可浏览!会员登录