logo

小白学苑PBCP

PBCP, 让大数据竞赛更简单!

2022(7.20更新)高职大数据竞赛-官方电商样例数据说明

2022年7月20日,大数据技术与应用赛项官方发布了本年度高职大数据竞赛(国赛)的更新版本,包括"评分标准0720更新"、"赛题库0720更新"和"样例数据0720更新"。其中样例数据包括两个,分别是电商样例数据和工业样例数据,但是样例数据较少。赛题库(即任务书)基于样例数据对任务需求做了改动。

让人不解的是,出题方没有给出任何数据字典或者数据描述说明,所以数据理解和需求理解全凭大家自己去猜,并且由于出题方任务需求描述的一言难尽,因此对于任务需求的理解会有较多的歧义。

虽然更新版本在整体思路和考核技术点没有大的变动,但在实现上基于样例数据,有很多与原参考实现不同的地方。 为此,小白学苑组织相关大数据专家更新了本系列参考实现教程。后续将陆续发布,敬请关注!

虽然赛题库中包含共十套任务书,但实际上前5套任务均基于电商数据库,后5套任务均基于工业数据库。每5套之间的区别主要在于离线数据处理部分的分析工具的替换(如数据清洗有的任务书要求使用Spark实现,有的任务书要求MapReduce实现,有的任务书要求Hive实现),算法原理是相同的。因此,小白学苑专家组挑选了具有代表性的任务书一和任务书七进行了参考实现(这两套任务题库均基于Spark实现离线数据处理)。用户可参考这两套任务书的实现思路自行实现其他任务书中的需求。

电商样例数据表模式定义

这些样例数据表的E-R图如下:

说明:在样例数据库中,并没有强制定义各表之间的外键关联。

电商样例数据集说明

下表列出了电商样例数据集中的表描述和数据条数。

表名 表描述 数据条数
base_region 区域基本信息表,例如华北区、华中区等。 7
base_province 省份和直辖市基本信息表,包含省份名称、所属区域、邮编等信息。 34
user_info 用户信息表,包含客户姓名、昵称、email等基本信息。 194
sku_info 商品信息表,包含商品的sku_id、价格、重量、类别等基本信息。 15
order_info 订单信息表,包含订单id、客户id、订单总金额等信息。 194
order_detail 订单明细表,包含订单id、商品sku_id、数量等明细数据。 200

部分样例数据查询结果

base_region表:

base_province表:

user_info表:

sku_info表:

order_info表:

order_detail表:

后续任务实现均基于以上样例数据集。

更新评分标准和更新赛题库下载