发布日期:2023-06-09 VIP内容

在Mac上安装Apache Spark

本教程讲解了在Mac OS上使用Homebrew逐步安装Apache Spark,验证安装,运行spark-shell,并创建Spark DataFrame。

在Mac OS上安装最新版本Apache Spark的步骤如下:

  • Step 1:安装 Homebrew
  • Step 2:安装Java
  • Step 3:安装Scala
  • Step 4:安装最新版本的Apache Spark
  • Step 5:运行spark-shell并验证安装

1. 安装 Homebrew

Homebrew是macOS的缺失包管理器,用于在Mac (macOS)上安装第三方包,如Java和Apache Spark。为了使用Homebrew,首先,需要使用下面的命令来安装它。

/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"

然后会提示输入root密码。需要输入您的root密码才能运行此命令。在个人笔记本电脑上,这与你登录Mac时输入的密码相同。成功安装homebrew后,应该看到如下所示的内容。

安装之后,可能需要运行下面的命令来将brew设置为$PATH。

echo 'eval "$(/opt/homebrew/bin/brew shellenv)"' >> /Users/admin/.zprofile
eval "$(/opt/homebrew/bin/brew shellenv)"

2. 安装Java

Spark的底层需要使用Java,因此需要在自己的Mac上安装有Java。因为Java是第三方的,所以可以使用Homebrew命令brew安装它。由于Oracle Java不再是开源的,本教程使用的是OpenJDK版本11。在终端运行以下命令安装。

brew install openjdk@11

3. 安装Scala

由于Apache Spark是用Scala语言编写的,因此显然需要Scala来运行Spark程序。安装Scala的命令如下:

brew install scala

4. 安装Apache Spark

可以使用Homebrew在Mac上下载并安装最新版本的Apache Spark。

brew install apache-spark

这将在Mac OS上安装最新版本的Apache Spark。安装过程如下图所示:

Apache Spark最新版本安装成功后,在命令行中执行spark-shell命令启动Spark shell。应该看到如下所示的内容(暂时忽略警告)。spark-shell是Apache Spark发行版附带的CLI实用程序。

注意,它会显示在终端上使用的Spark版本和Java版本。

5. 从Shell验证Spark安装

让我们用一些示例数据创建一个Spark DataFrame来验证安装。在Spark Shell中依次输入以下命令:

import spark.implicits._

val data = Seq(("Java", "20000"), ("Python", "100000"), ("Scala", "3000"))

val df = data.toDF() 

df.show()

执行过程和输出结果,如下图所示:

这时,打开浏览器,访问http://localhost:4041/jobs/地址,可以打开Spark Web UI,查看作业执行情况。