PySpark原理深入与编程实战(视频教程)
Ch01 Spark架构与集群搭建
- Spark和PySpark架构原理 观看
- 安装和配置Spark集群 观看
- 配置和使用Spark历史记录服务器 观看
- 使用pyspark shell进行交互式执行 观看
- 使用spark-submit命令提交Spark作业程序 观看
Ch02 开发和部署PySpark程序
- 使用PyCharm IDE开发_本地开发和测试 观看
- 使用PyCharm IDE开发_远程测试和集群部署 观看
- 使用Zeppelin Notebook进行交互式分析 观看
- 使用Jupyter Notebook进行交互式分析 观看
Ch03 PySpark核心编程
- 理解数据抽象RDD 观看
- RDD编程模型 观看
- 创建RDD的三种方法 观看
- RDD上的Transformation操作 观看
- RDD上的Action操作 观看
- RDD上的描述性统计操作 观看
- Pair RDD上的操作 观看
- 持久化RDD 观看
- 深入理解RDD数据分区 观看
- RDD共享变量 观看
- RDD数据可视化 观看
- RDD编程案例_合并小文件 观看
- RDD编程案例_二次排序实现 观看
- RDD编程案例_Top N实现 观看
- RDD编程案例_电影评分数据集分析 观看
Ch04 PySpark SQL编程(初级)
- PySpark SQL数据抽象 观看
- PySpark SQL编程模型 观看
- PySpark SQL模式和对象 观看
- PySpark SQL创建DataFrame 观看
- PySpark SQL操作DataFrame 观看
- PySpark SQL存储DataFrame 观看
- 临时视图与SQL查询 观看
- 缓存DataFrame 观看
- DataFrame可视化 观看
- PySpark SQL编程案例 观看
Ch05 PySpark SQL编程(高级)
- PySpark SQL内置标量函数 观看
- PySpark SQL聚合和透视函数 观看
- PySpark SQL高级分析函数 观看
- PySpark SQL用户自定义函数(UDF) 观看
- DataFrame连接和连接策略 观看
- PySpark SQL读写Hive表 观看
- PySpark SQL案例_电商数据集分析 观看
- PySpark SQL案例_电影观众分布统计 观看
Ch06 PySpark结构化流处理(初级)
- PySpark Streaming介绍 观看
- PySpark结构化流简介 观看
- PySpark结构化流核心概念 观看
- 使用流数据源(1) 观看
- 使用流数据源(2)-Kafka 观看
- 流DataFrame上的常用操作 观看
- 双流DataFrame的join连接 观看
- 使用数据接收器(1) 观看
- 使用数据接收器(2)-Kafka 观看
- 深入研究输出模式 观看
- 深入研究触发器 观看
Ch07 PySpark结构化流处理(高级)
ch08 PySpark大数据分析综合案例
- 综合项目_大数据分析综合案例 观看