示例:读取多个文本文件到单个RDD中

弹性分布式数据集(RDD)是Spark的基本数据结构,它是一个不可变的分布式对象集合。RDD中的每个数据集被划分为多个逻辑分区,这些逻辑分区可以在集群的不同节点上进行计算。

Spark Core在SparkContext类中提供了textFile()和wholeTextFiles()方法,用于将单个和多个文本或csv文件读取到单个Spark RDD中。使用这种方法,我们还可以从目录和具有特定模式的多文件中读取所有文件。

  • textFile():读取单个或多个文本文件、csv文件,并返回单个Spark RDD [String]。
  • wholeTextFiles():读取单个或多个文件,并返回单个RDD[Tuple2[String, String]],其中元组中的第一个值(_1)是文件名,第二个值(_2)是文件的内容。

接下来,让我们看一些读取多个文本文件到单个RDD中的示例。


《Spark原理深入与编程实战》