赛题模拟实现-离线数据统计

具体内容

使用Scala语言编写程序获取ODS层指定分区表中的数据进行清洗,并完成销量前5的商品统计、某月的总销售额统计、指定月份的销售额统计、各用户在线总时长统计,并将统计后的数据存入MySQL数据库中。

实现原理

数据仓库概念图:

实现过程

1) 数据清洗任务。

数据清洗包括:

  • 去重
  • 空值判断与填充

因本案例所选数据集为Kaggle上的数据集,无重复数据和缺失字段,所以不需要去重和空值处理,因此省略数据清洗一项。

如果大家希望学习数据清洗的方法,可以参考以下相关内容:


《PySpark原理深入与编程实战》