2024-2025学年广东省高职“大数据应用开发”赛项样题4-任务C:数据挖掘_解析

环境说明:

补充说明:选手自行启动相关服务,建议使用spark 本地模式运行任务,若虚拟机资源提示不足,可在idea 编写、测试和打包好程序后,关闭idea 编辑器,再使用spark-submit -master local[*]本地模式运行任务,或使用本地spark-shell --master local[*]进行数据挖掘测试和程序运行。

点击以下链接,快速跳转到相应内容:

任务描述:

子任务一:特征工程

使用Idea Spark 工程或Spark-shell , 读取虚拟机bigdata-spark 的/opt/data 目录下的credit_train.csv:

1、使用VectorAssembler 对Age、Income、dist_home_val、dist_avg_income、 high_avg 进行特征工程处理,使用transform 处理,使用Dataframe 的 show(5, truncate =false)打印特征向量列的前5 行。将对应show 代码以 及show 结果的截图粘贴至物理机桌面【Release\任务C 提交结果.doc ......

......

抱歉,只有登录会员才可浏览!会员登录


《Flink原理深入与编程实战》