2024-2025学年广东省高职“大数据应用开发”赛项样题1-任务C:数据挖掘_解析

环境说明:

补充说明:选手自行启动相关服务,建议使用spark 本地模式运行任务,若虚拟机资源提示不足,可在idea 编写、测试和打包好程序后,关闭idea 编辑器,再使用spark-submit -master local[*]本地模式运行任务,或使用本地spark-shell --master local[*]进行数据挖掘测试和程序运行。

点击以下链接,快速跳转到相应内容:

任务描述:

子任务一:特征工程

使用Idea Spark 工程或Spark-shell,读取虚拟机bigdata-spark 的/opt/data 目录下的user_churn_trian.csv:

1、将Churn 列的值按True 为1,False 为0 做映射,并将列名Churn 改为 ChurnLabel,使用Dataframe show 前5 行,将对应show 代码以及show 结果的截图粘贴至物理机桌面【Release\任务C 提交结果.docx】中对应的任务序号下。

使用StringIndexer 对列International plan 进行特 ......

......

抱歉,只有登录会员才可浏览!会员登录


《Spark原理深入与编程实战》