在Pycharm中开发PySpark结构化流程序

开发PySpark结构化流应用程序，使用交互式开发环境非常不方便，因此通常使用PyCharm来开发流应用程序。本节讲述如何在Windows环境下应用PyCharm来开发PySpark结构化流应用程序。

本节所使用的示例代码来自使用流数据源2_Kafka。

from pyspark.sql import SparkSession
from pyspark.sql.types import *
from pyspark.sql.functions import *

# 创建SparkSession实例
spark = SparkSession.builder.master("local[*]").appName("Kafka Source").getOrCreate()

# 创建一个流来监听test topic的消息
dataDF = spark.readStream \
      .format("kafka") \
      .option("kafka.bootstrap.servers", "xueai8:9092") \
      .option("subscribe", "test") \
      .option("startingOffsets", "earliest") \
      .load()

# 查看这个DataFrame的schema
dataDF.printSchema()

# 将该流转换为String数据类型（key和value都是字节数组形式）
# kvstream = dataDF.selectExpr("CAST(key as string)", "CAST(value as string)")
kvstream = dataDF.selectExpr("CAST(value as strin ......
          ......

          
            
            
              抱歉，只有登录会员才可浏览！会员登录

小白学苑

让大数据学习更简单

在Pycharm中开发PySpark结构化流程序