在Pycharm中开发PySpark结构化流程序
开发PySpark结构化流应用程序,使用交互式开发环境非常不方便,因此通常使用PyCharm来开发流应用程序。本节讲述如何在Windows环境下应用PyCharm来开发PySpark结构化流应用程序。
本节所使用的示例代码来自使用流数据源2_Kafka。
from pyspark.sql import SparkSession from pyspark.sql.types import * from pyspark.sql.functions import * # 创建SparkSession实例 spark = SparkSession.builder.master("local[*]").appName("Kafka Source").getOrCreate() # 创建一个流来监听test topic的消息 dataDF = spark.readStream \ .format("kafka") \ .option("kafka.bootstrap.servers", "xueai8:9092") \ .option("subscribe", "test") \ .option("startingOffsets", "earliest") \ .load() # 查看这个DataFrame的schema dataDF.printSchema() # 将该流转换为String数据类型(key和value都是字节数组形式) # kvstream = dataDF.selectExpr("CAST(key as string)", "CAST(value as string)") kvstream = dataDF.selectExpr("CAST(value as strin ............
抱歉,只有登录会员才可浏览!会员登录