赛题模拟实现-离线数据统计
具体内容
使用Scala语言编写程序获取ODS层指定分区表中的数据进行清洗,并完成销量前5的商品统计、某月的总销售额统计、指定月份的销售额统计、各用户在线总时长统计,并将统计后的数据存入MySQL数据库中。
实现原理
数据仓库概念图:

实现过程
1) 数据清洗任务。
数据清洗包括:
- 去重
- 空值判断与填充
因本案例所选数据集为Kaggle上的数据集,无重复数据和缺失字段,所以不需要去重和空值处理,因此省略数据清洗一项。
如果大家希望学习数据清洗的方法,可以参考以下相关内容:
- 示例_数据缺失值处理;
- 示例_数据整合、清洗与转换;
- 小白学苑案例会员登录