设置Spark on YARN

本教程介绍如何在Hadoop上使用Yarn集群管理器设置Apache Spark并运行Spark应用程序，其中Yarn集群管理器用于将Spark示例作为client部署模式并将master作为Yarn运行。

通过访问Spark下载页面下载Apache Spark，默认为最新版本的Spark。如果想使用不同版本的Spark和Hadoop，请从下拉框中选择自己想要的版本。随着您的选择，列表项3上的链接也随之更改为所选版本，并提供更新后的下载链接。点击列表项3对应的下载链接下载，如下图所示：

下载完成后，使用文件归档工具tar解压文件内容，并将文件夹重命名为spark。命令如下：

tar -xzf spark-3.4.0-bin-hadoop3.tgz
mv spark-3.4.0-bin-hadoop3 spark

在.bashrc或.profile文件中添加spark环境变量。在任意文本编辑器（例如，vi编辑器）中打开文件并添加以下变量。

vi ~/.bashrc

编辑内容如下：

......

抱歉，只有登录会员才可浏览！会员登录

小白学苑