某招聘网站招聘大数据分析案例(爬虫 + Hadoop + Spark + ECharts)

综合运行大数据分析和可视技术,对使用爬虫程序从互联网上采集到的某招聘网站招聘岗位数据进行多维度分析,并可视化展示分析结果。

更多信息,请到项目中心查看

项目架构

项目流程

项目流程说明如下:

  • 1. 数据采集:使用Python爬虫程序(或Java爬虫程序);
  • 2. 大数据清洗:使用Spark SQL进行数据清洗和整理;
  • 3. 大数据分析:使用Spark SQL进行数据多维度分析;
  • 4. 大数据迁移:使用Sqoop实现数据从HDFS导出到MySQL数据库;
  • 5. 大数据可视化:使用Spring MVC + ECharts实现分析结果展示。

注:此项目可定制化改造,增加/修改如下功能

  • 增加Spark ETL模块;
  • 增加作业编排模块。
  • 改用PySpark使用Python API进行数据清洗+分析,以及使用Python Flask + ECharts进行可视化展示;
  • 改用其他BI工具可视化,如Tableau、Superset等。

适用对象

本项目适合以下人员学习使用:

  • 已有Spark基础,需要掌握大数据完整开发和分析流程、积累大数据项目经验;
  • 大数据毕业设计项目。

项目实施过程

1. 数据采集

本项目提供Python API和Java API两套实现代码,实现从某招聘网站采集所有或指定招聘信息。

2. 大数据清洗

使用Spark对大数据进行清洗,包括去重、错误数据处理、空值处理、属性转换、属性提取等数据预处理任务。

3. 大数据分析

使用Spark SQL从多个维度对整理后的数据集进行分析。

4. 大数据迁移

使用Sqoop将分析结果导出到MySQL数据库中。

5. 大数据可视化

开发Spring MVC项目,使用ECharts作为可视化组件,展示分析结果。


《Flink原理深入与编程实战》