视频名称

创建RDD的三种方法

视频内容

视频简介

【PySpark原理深入与实战】配套精讲视频
在对数据进行任何transformation或action操作之前,必须先将这些数据构造为一个RDD。PySpark提供了创建RDD的三种方法,分别是:

  • (1) 第一种方法是将现有的集合并行化。
  • (2) 另一种方法是加载外部存储系统中的数据集,比如文件系统。
  • (3) 第三种方法是在现有RDD上进行转换来得到新的RDD。