2024-2025学年广东省高职“大数据应用开发”赛项样题1-任务C:数据挖掘_解析
环境说明:
补充说明:选手自行启动相关服务,建议使用spark 本地模式运行任务,若虚拟机资源提示不足,可在idea 编写、测试和打包好程序后,关闭idea 编辑器,再使用spark-submit -master local[*]本地模式运行任务,或使用本地spark-shell --master local[*]进行数据挖掘测试和程序运行。
点击以下链接,快速跳转到相应内容:
任务描述:
子任务一:特征工程
使用Idea Spark 工程或Spark-shell,读取虚拟机bigdata-spark 的/opt/data 目录下的user_churn_trian.csv:
1、将Churn 列的值按True 为1,False 为0 做映射,并将列名Churn 改为 ChurnLabel,使用Dataframe show 前5 行,将对应show 代码以及show ......
......
抱歉,只有登录会员才可浏览!会员登录