PySpark RDD编程案例_电影数据集分析
下面的示例使用Spark RDD实现对电影数据集进行分析。在这里我们使用推荐领域一个著名的开放测试数据集movielens。我们将使用其中的电影评分数据集ratings.csv以及电影数据集movies.csv。这两个数据集已经放在了PBLP平台的/home/hduser/data/spark/movielens/目录下。
【例】请找出平均评分超过4.0的电影,列表显示。
实现过程和代码如下。
1)加载数据,构造RDD:
from pyspark.sql import SparkSession
# 构建SparkSession和SparkContext实例
spark = SparkSession.builder \
.master("spark://xueai8:7077") \
.appName("pyspark demo") \
.getOrCreate()
sc = spark.sparkContext
# 加载数据,构造RDD
ratings = "file:///home/hduser/data/spark/movielens/ratings.csv" # 评分数据集
movies = "file:///home/hduser/data/spark/movielens/movies.csv" # 电影数据集
ratingsRDD = sc.textFile(ratings)
moviesRDD = sc.textFile(movies)
print("评分数据集中数据总记录数量:",ratingsRDD.count()) # 评分数据集中数据总记录数量
ratingsRDD.cache() # 缓存评分数据集
print("电影数据集中数据总记录数量:",moviesR ......
......
抱歉,只有登录会员才可浏览!会员登录