PySpark原理深入与编程实战(视频教程)

Ch01 Spark架构与集群搭建

  • Spark和PySpark架构原理 观看
  • 安装和配置Spark集群 观看
  • 配置和使用Spark历史记录服务器 观看
  • 使用pyspark shell进行交互式执行 观看
  • 使用spark-submit命令提交Spark作业程序 观看

Ch02 开发和部署PySpark程序

  • 使用PyCharm IDE开发_本地开发和测试 观看
  • 使用PyCharm IDE开发_远程测试和集群部署 观看
  • 使用Zeppelin Notebook进行交互式分析 观看
  • 使用Jupyter Notebook进行交互式分析 观看

Ch03 PySpark核心编程

  • 理解数据抽象RDD 观看
  • RDD编程模型 观看
  • 创建RDD的三种方法 观看
  • RDD上的Transformation操作 观看
  • RDD上的Action操作 观看
  • RDD上的描述性统计操作 观看
  • Pair RDD上的操作 观看
  • 持久化RDD 观看
  • 深入理解RDD数据分区 观看
  • RDD共享变量 观看
  • RDD数据可视化 观看
  • RDD编程案例_合并小文件 观看
  • RDD编程案例_二次排序实现 观看
  • RDD编程案例_Top N实现 观看
  • RDD编程案例_电影评分数据集分析 观看

Ch04 PySpark SQL编程(初级)

  • PySpark SQL数据抽象 观看
  • PySpark SQL编程模型 观看
  • PySpark SQL模式和对象 观看
  • PySpark SQL创建DataFrame 观看
  • PySpark SQL操作DataFrame 观看
  • PySpark SQL存储DataFrame 观看
  • 临时视图与SQL查询 观看
  • 缓存DataFrame 观看
  • DataFrame可视化 观看
  • PySpark SQL编程案例 观看

Ch05 PySpark SQL编程(高级)

  • PySpark SQL内置标量函数 观看
  • PySpark SQL聚合和透视函数 观看
  • PySpark SQL高级分析函数 观看
  • PySpark SQL用户自定义函数(UDF) 观看
  • DataFrame连接和连接策略 观看
  • PySpark SQL读写Hive表 观看
  • PySpark SQL案例_电商数据集分析 观看
  • PySpark SQL案例_电影观众分布统计 观看

Ch06 PySpark结构化流处理(初级)

  • PySpark Streaming介绍 观看
  • PySpark结构化流简介 观看
  • PySpark结构化流核心概念 观看
  • 使用流数据源(1) 观看
  • 使用流数据源(2)-Kafka 观看
  • 流DataFrame上的常用操作 观看
  • 双流DataFrame的join连接 观看
  • 使用数据接收器(1) 观看
  • 使用数据接收器(2)-Kafka 观看
  • 深入研究输出模式 观看
  • 深入研究触发器 观看

Ch07 PySpark结构化流处理(高级)

  • 事件时间和窗口聚合 观看
  • 深入理解和应用水印技术 观看
  • 处理重复的流数据 观看
  • 容错和检查点 观看
  • 结构化流案例—运输车辆超速实时检测 观看

ch08 PySpark大数据分析综合案例

  • 综合项目_大数据分析综合案例 观看