项目:电商大数据-淘宝双十一美妆销售分析项目

项目简介

某著名电商平台双十一美妆销售数据分析。由于是真实的商业数据,所以做了脱敏处理,数据集中对店名的引用被处理为产品的品牌名以保护店家隐私。。

使用技术栈:Hadoop + Hive + Spark + Azkaban + Spring MVC + ECharts

项目详情

某著名电商平台双十一美妆销售数据分析。由于是真实的商业数据,所以做了脱敏处理,数据集中对店名的引用被处理为产品的品牌名以保护店家隐私。

通过对该平台双十一美妆销售数据的品牌、销量、热度等特征的分析(平台视角和用户视角),尝试探索以下问题:

  • 双十一期间,最受消费者青睐的产品或品牌是哪些?
  • 双十一期间,美妆行业各品类的销售情况?
  • 双十一期间,消费高峰何时出现?
  • 双十一期间,客户的评论数对销量的影响?
  • ......

项目架构

项目流程

项目流程说明如下:

  • 1. 数据集:使用Spark ETL技术,将数据抽取到Hive数据仓库ODS层;
  • 2. 大数据清洗:使用Spark SQL进行数据清洗,包括数据去重和错误数据处理;
  • 3. 大数据属性转换与整理:使用Spark SQL进行数据属性预处理,包括属性转换与抽取、属性选择等;
  • 4. 大数据分析:使用Spark SQL平台角度和用户角度分别进行分析,并使用Spark ETL技术将分析结果写出到MySQL数据库中;
  • 5. 大数据可视化:使用Spring MVC + Apache ECharts展示分析结果。

注:本项目使用了分词处理技术以抽取商品分类属性。

适用对象

本项目适合以下人员学习使用:

  • 已有Hadoop和Spark基础,需要掌握大数据完整开发和分析流程、积累大数据项目经验;
  • 大数据毕业设计项目。

项目实施过程

本项目使用Hive作业数据仓库,使用Spark SQL开发数据处理管道,包括ETL、数据清洗和数据预处理,并使用Spark SQL作为OLAP引擎。大数据分析结果写出到MySQL数据库中,最后使用Spring MVC和Apache ECharts开发Web应用程序,对分析结果进行可视化展示。整体项目实施过程如下:

1. 数据ETL

使用Spark SQL开发ETL作业,将某电商平台双十一美妆销售数据抽取并加载到Hive数据仓库的ODS层。

2. 大数据清洗和预处理

使用Spark对大数据进行清洗,包括去重、错误数据处理、空值处理、属性转换、属性提取等数据预处理任务。其中比较难处理的(难点及亮点)是对美妆商品抽取主类别和子类别属性。这里我们在Spark平台上使用了结巴分词工具包来抽取这两个属性。

3. 大数据分析

使用Spark SQL从多个维度对整理后的销售数据集进行分析。在项目实施过程中,我们先使用Zeppelin NoteBook执行交互式探索和分析,然后将实现过程使用IntellIJ IDEA进行项目重构。

4. 作业部署和执行

项目使用Maven打jar包,使用Azkaban进行作业编排(当然是可选的,也可省略作业编排,手工依次执行),并部署到Spark集群上执行。最终分析结果写出到MySQL数据库中。

5. 大数据可视化

使用IntellIJ IDEA开发Spring MVC项目,使用ECharts作为可视化组件,展示分析结果。

下载项目资源 返回项目列表

挣积分

用户可以上传项目资源到本站,我们会根据资源的质量和价值计算积分给用户。

用户可以使用自己账号下的积分换取本站VIP资源(教程、项目、图书等)。

请联系我们

  • Email:zz_kapper@163.com
  • QQ:185314368(张老师)