示例:读写XML文件到DataFrame
Apache Spark可用于处理或读取简单到复杂的嵌套XML文件到Spark DataFrame中,并将DataFrame写回XML,通过使用Databricks的 Spark XML API (spark-xml)库。
Databricks Spark XML API (spark-xml)库
Databricks的 Spark XML API (spark-xml)库是一个用Apache Spark解析和查询XML数据的库,用于Spark SQL和DataFrames。结构和测试工具大多是从Spark的CSV数据源中复制的。
spark-xml支持以分布式的方式处理无格式的XML文件,不像Spark中的JSON数据源限制内联JSON格式。Spark XML API 参考。
对于Maven项目,在pom.xml文件中添加如下依赖:
<dependency> <groupId>com.databricks</groupId> <artifactId>spark-xml_2.12</artifactId> <version>0.16.0</version> </dependency>
如果在Spark shell中使用,可以通过--packages命令行选项将该包添加到Spark。例如:
$SPARK_HOME/bin/spark-shell --packages com.databricks:spark-xml_ ............
抱歉,只有登录会员才可浏览!会员登录