示例:加载CSV文件到RDD中
使用SparkContext类中的textFile()方法,我们可以读取单个CSV文件、多个CSV文件(基于模式匹配)、或者从一个目录中读取所有文件到RDD[String]对象。
在开始之前,让我们假设在文件夹~/data/spark/files3中有以下文件名和文件内容,文件内容以逗号分隔,我们将使用这些文件来演示示例。
文件名 | 文件内容 |
---|---|
text01.csv |
Col1,Col2 one,1 Eleven,11 |
text02.csv |
Col1,Col2 two,2 Twenty One,21 |
text03.csv |
Col1,Col2 three,3 |
text04.csv |
Col1,Col2 four,4 |
invalid.csv |
Col1,Col2 invalid,I |
点击以下链接,快速浏览相应内容:
......抱歉,只有登录会员才可浏览!会员登录