logo

小白学苑PBCP

PBCP, 让大数据竞赛更简单!

2024-2025学年广东省高职“大数据应用开发”赛项样题1-任务C:数据挖掘_解析

环境说明:

补充说明:选手自行启动相关服务,建议使用spark 本地模式运行任务,若虚拟机资源提示不足,可在idea 编写、测试和打包好程序后,关闭idea 编辑器,再使用spark-submit -master local[*]本地模式运行任务,或使用本地spark-shell --master local[*]进行数据挖掘测试和程序运行。

点击以下链接,快速跳转到相应内容:

任务描述:

子任务一:特征工程

使用Idea Spark 工程或Spark-shell,读取虚拟机bigdata-spark 的/opt/data 目录下的user_churn_trian.csv:

1、将Churn 列的值按True 为1,False 为0 做映射,并将列名Churn 改为 ChurnLabel,使用Dataframe show 前5 行,将对应show 代码以及show ......

......

抱歉,只有登录会员才可浏览!会员登录