示例:读写XML文件到DataFrame

Apache Spark可用于处理或读取简单到复杂的嵌套XML文件到Spark DataFrame中,并将DataFrame写回XML,通过使用Databricks的 Spark XML API (spark-xml)库。

Databricks Spark XML API (spark-xml)库

Databricks的 Spark XML API (spark-xml)库是一个用Apache Spark解析和查询XML数据的库,用于Spark SQL和DataFrames。结构和测试工具大多是从Spark的CSV数据源中复制的。

spark-xml支持以分布式的方式处理无格式的XML文件,不像Spark中的JSON数据源限制内联JSON格式。Spark XML API 参考

对于Maven项目,在pom.xml文件中添加如下依赖:

<dependency>
    <groupId>com.databricks</groupId>
    <artifactId>spark-xml_2.12</artifactId>
    <version>0.16.0</version>
</dependency>

如果在Spark shell中使用,可以通过--packages命令行选项将该包添加到Spark。例如:

$SPARK_HOME/bin/spark-shell --packages com.databricks:spark-xml_ ......
          

......

抱歉,只有登录会员才可浏览!会员登录


《Spark原理深入与编程实战》