案例：电影评分数据集分析

PySpark SQL分析案例：电影评分数据集分析

本节使用PySpark SQL实现对电影数据集进行分析。在这里使用推荐领域一个著名的开放测试数据集movielens。MovieLens数据集包括电影元数据信息和用户属性信息。本例将使用其中的users.dat和ratings.dat两个数据集。

【示例】使用PySpark DataFrame API统计看过电影“Lord of the Rings,The(1978)”的用户的年龄和性别分布（提示该影片的id是2116）。

请按以下步骤执行。

(1) 首先构造一个SparkSession实例，代码如下：

from pyspark.sql import SparkSession
from pyspark.sql.functions import *

# 创建SparkSession的实例
spark = SparkSession.builder \
    .master("spark://localhost:7077") \
    .appName("pyspark sql demo") \
    .config("spark.hadoop.hive.exec.dynamic.partition", "true") \
    .config("spark.hadoop.hive.exec.dynamic.partition.mode","nonstrict") \
    .enableHiveSupport() \
    .getOrCreate()

(2) 读取用户数据集users.dat，加载到DataFrame中，代码如下：

from pyspark.sql.types import *

# 定义文件路 ......
          ......

          
            
            
              抱歉，只有登录会员才可浏览！会员登录

小白学苑

让大数据学习更简单

PySpark SQL分析案例：电影评分数据集分析