2022(7.20更新)高职大数据竞赛-官方工业样例数据说明
2022年7月20日,大数据技术与应用赛项官方发布了本年度高职大数据竞赛(国赛)的更新版本,包括"评分标准0720更新"、"赛题库0720更新"和"样例数据0720更新"。其中样例数据包括两个,分别是电商样例数据和工业样例数据,但是样例数据较少。赛题库(即任务书)基于样例数据对任务需求做了改动。
让人不解的是,出题方没有给出任何数据字典或者数据描述说明,所以数据理解和需求理解全凭大家自己去猜,并且由于出题方任务需求描述的一言难尽,因此对于任务需求的理解会有较多的歧义。
虽然更新版本在整体思路和考核技术点没有大的变动,但在实现上基于样例数据,有很多与原参考实现不同的地方。 为此,小白学苑组织相关大数据专家更新了本系列参考实现教程。后续将陆续发布,敬请关注!
虽然赛题库中包含共十套任务书,但实际上前5套任务均基于电商数据库,后5套任务均基于工业数据库。每5套之间的区别主要在于离线数据处理部分的分析工具的替换(如数据清洗有的任务书要求使用Spark实现,有的任务书要求MapReduce实现,有的任务书要求Hive实现),算法原理是相同的。因此,小白学苑专家组挑选了具有代表性的任务书一和任务书七进行了参考实现(这两套任务题库均基于Spark实现离线数据处理)。用户可参考这两套任务书的实现思路自行实现其他任务书中的需求。
工业样例数据表模式定义
这些样例数据表的E-R图如下:
说明:在样例数据库中,并没有强制定义各表之间的外键关联。
工业样例数据集说明
下表列出了工业样例数据集中的表描述和数据条数。
表名 | 表描述 | 数据条数 |
---|---|---|
basemachine | 车间设备的基本信息表。 | 10 |
baseemployee | 员工基本信息表。(任务书7中并未用到该表) | 19 |
producerecord | 生产记录表。 | 50 |
changerecord | 生产设备状态变化记录表。 | 100 |
environmentdata | 生产环境数据表。(任务书7中并未用到该表) | 71 |
可以看到,给出的工业样例数据样本数偏少。
部分样例数据查询结果
basemachine表:
producerecord表:
changerecord表:
后续任务实现均基于以上样例数据集。