视频名称

持久化RDD

视频内容

视频简介

【PySpark原理深入与实战】配套精讲视频
PySpark中最重要的功能之一是跨操作在内存中持久化(或缓存)数据集。当持久化一个RDD时,每个节点在内存中存储它计算的任何分区,并在该数据集(或从该数据集派生的数据集)上的其他操作中重用它们。这使得后续的操作要快得多(通常超过10倍)。缓存是迭代算法和快速交互使用的关键工具。