示例:加载CSV文件到RDD中

使用SparkContext类中的textFile()方法,我们可以读取单个CSV文件、多个CSV文件(基于模式匹配)、或者从一个目录中读取所有文件到RDD[String]对象。

在开始之前,让我们假设在文件夹~/data/spark/files3中有以下文件名和文件内容,文件内容以逗号分隔,我们将使用这些文件来演示示例。

文件名 文件内容
text01.csv Col1,Col2
one,1
Eleven,11
text02.csv Col1,Col2
two,2
Twenty One,21
text03.csv Col1,Col2
three,3
text04.csv Col1,Col2
four,4
invalid.csv Col1,Col2
invalid,I

点击以下链接,快速浏览相应内容:

......

抱歉,只有登录会员才可浏览!会员登录


《PySpark原理深入与编程实战》