视频名称

PySpark SQL案例_电影观众分布统计

视频内容

您还未登录!(正式会员登录可观看)

会员登录

视频简介

【PySpark原理深入与实战】配套精讲视频
本节使用PySpark SQL实现对电影数据集进行分析。在这里使用推荐领域一个著名的开放测试数据集movielens。MovieLens数据集包括电影元数据信息和用户属性信息。本例将使用其中的users.dat和ratings.dat两个数据集。
【示例5-11】使用PySpark DataFrame API统计看过电影“Lord of the Rings,The(1978)”的用户的年龄和性别分布(提示该影片的id是2116)。