PySpark SQL可视化
PySpark还没有任何绘图功能。如果想绘制一些内容,可以将数据从SparkContext中取出并放入“本地”Python会话中,在那里可以使用Python的任意一个绘图库来处理它。
对于PySpark SQL中的DataFrame,可以先将它转成Pandas的DataFrame,再应用Python绘图库进行绘制。
1. PySpark DataFrame转换到Pandas
在PySpark中,很容易通过一行代码将PySpark DataFrame转换为Pandas DataFrame,代码如下:
df_pd = df.toPandas()
在下面的示例中,演示了如何将PySpark DataFrame Row对象列表转换为Pandas DataFrame,代码如下:
from pyspark.sql import SparkSession from pyspark.sql.functions import collect_list,struct from pyspark.sql.types import * from decimal import Decimal import pandas as pd # 构建SparkSession实例 spark = SparkSession.builder \ .master("spark://localhost:7077") \ .appName("pyspark rdd demo") \ .getOrCreate() # List data = [ ('Category A', 1, Decimal(12.40)), ('Category B', 2, Decimal(3 ............
抱歉,只有登录会员才可浏览!会员登录