PySpark SQL可视化

PySpark还没有任何绘图功能。如果想绘制一些内容,可以将数据从SparkContext中取出并放入“本地”Python会话中,在那里可以使用Python的任意一个绘图库来处理它。

对于PySpark SQL中的DataFrame,可以先将它转成Pandas的DataFrame,再应用Python绘图库进行绘制。

1. PySpark DataFrame转换到Pandas

在PySpark中,很容易通过一行代码将PySpark DataFrame转换为Pandas DataFrame,代码如下:

df_pd = df.toPandas()

在下面的示例中,演示了如何将PySpark DataFrame Row对象列表转换为Pandas DataFrame,代码如下:

from pyspark.sql import SparkSession
from pyspark.sql.functions import collect_list,struct
from pyspark.sql.types import *

from decimal import Decimal
import pandas as pd

# 构建SparkSession实例
spark = SparkSession.builder \
   .master("spark://localhost:7077") \
   .appName("pyspark rdd demo") \
   .getOrCreate()

# List
data = [ ('Category A', 1, Decimal(12.40)),
        ('Category B', 2, Decimal(3 ......
          

......

抱歉,只有登录会员才可浏览!会员登录


《Flink原理深入与编程实战》