PySpark RDD编程案例_电影数据集分析
下面的示例使用Spark RDD实现对电影数据集进行分析。在这里我们使用推荐领域一个著名的开放测试数据集movielens。我们将使用其中的电影评分数据集ratings.csv以及电影数据集movies.csv。这两个数据集已经放在了PBLP平台的/home/hduser/data/spark/movielens/目录下。
【例】请找出平均评分超过4.0的电影,列表显示。
实现过程和代码如下。
1)加载数据,构造RDD:
from pyspark.sql import SparkSession # 构建SparkSession和SparkContext实例 spark = SparkSession.builder \ .master("spark://xueai8:7077") \ .appName("pyspark demo") \ .getOrCreate() sc = spark.sparkContext # 加载数据,构造RDD ratings = "file:///home/hduser/data/spark/movielens/ratings.csv" # 评分数据集 movies = "file:///home/hduser/data/spark/movielens/movies.csv" # 电影数据集 ratingsRDD = sc.textFile(ratings) moviesRDD = sc.textFile(movies) print("评分数据集中数据总记录数量:",ratingsRDD.count()) # 评分数据集中数据总记录数量 ratingsRDD.cache() # 缓存评分数据集 print("电影数据集中数据总记录数量:",moviesR ............
抱歉,只有登录会员才可浏览!会员登录