视频名称

数据预处理说明

视频内容

您尚未登录!(正式会员登录可观看)

会员登录

视频简介

讲解如何使用Spark对大数据进行清洗,包括去重、错误数据处理、空值处理、属性转换、属性提取等数据预处理任务。其中比较难处理的(难点及亮点)是对美妆商品抽取主类别和子类别属性。这里我们在Spark平台上使用了结巴分词工具包来抽取这两个属性。