PySpark RDD编程案例_电影数据集分析

下面的示例使用Spark RDD实现对电影数据集进行分析。在这里我们使用推荐领域一个著名的开放测试数据集movielens。我们将使用其中的电影评分数据集ratings.csv以及电影数据集movies.csv。这两个数据集已经放在了PBLP平台的/home/hduser/data/spark/movielens/目录下。

【例】请找出平均评分超过4.0的电影,列表显示。

实现过程和代码如下。

1)加载数据,构造RDD:

from pyspark.sql import SparkSession

# 构建SparkSession和SparkContext实例
spark = SparkSession.builder \
   .master("spark://xueai8:7077") \
   .appName("pyspark demo") \
   .getOrCreate()

sc = spark.sparkContext

# 加载数据,构造RDD
ratings = "file:///home/hduser/data/spark/movielens/ratings.csv"    	# 评分数据集
movies = "file:///home/hduser/data/spark/movielens/movies.csv"   	# 电影数据集

ratingsRDD = sc.textFile(ratings)
moviesRDD = sc.textFile(movies)

print("评分数据集中数据总记录数量:",ratingsRDD.count())			# 评分数据集中数据总记录数量
ratingsRDD.cache()			# 缓存评分数据集

print("电影数据集中数据总记录数量:",moviesR ......
          

......

抱歉,只有登录会员才可浏览!会员登录


《Spark原理深入与编程实战》