2024-2025学年广东省高职“大数据应用开发”赛项样题4-任务C:数据挖掘_解析
环境说明:
补充说明:选手自行启动相关服务,建议使用spark 本地模式运行任务,若虚拟机资源提示不足,可在idea 编写、测试和打包好程序后,关闭idea 编辑器,再使用spark-submit -master local[*]本地模式运行任务,或使用本地spark-shell --master local[*]进行数据挖掘测试和程序运行。
点击以下链接,快速跳转到相应内容:
任务描述:
子任务一:特征工程
使用Idea Spark 工程或Spark-shell , 读取虚拟机bigdata-spark 的/opt/data 目录下的credit_train.csv:
1、使用VectorAssembler 对Age、Income、dist_home_val、dist_avg_income、 high_avg 进行特征工程处理,使用transform 处理,使用Dataframe 的 show(5, truncate =false)打印特征向量列的前5 行。将对应show 代码以 及show 结果的截图粘贴至物理机桌面【Release\任务C 提交结果.doc ......
......
抱歉,只有登录会员才可浏览!会员登录