赛题模拟实现-离线数据抽取

本系列共分五篇,内容分别为:

数据准备

这里使用的是Kaggle上的公共数据集,来自巴西olist商店电子商务订单。该数据集提供 2016 年至 2018 年在巴西多个市场下订单的 10 万份信息。其功能允许从多个维度查看订单:从订单状态、价格、付款和货运性能到客户位置、产品属性以及客户撰写的最后评论。 数据说明。

我们选取了其中4张表,E-R模型图如下:

对这4张表分别说明如下:

    ......

    抱歉,只有登录会员才可浏览!会员登录


《PySpark原理深入与编程实战》