在Mac上安装Apache Spark
本教程讲解了在Mac OS上使用Homebrew逐步安装Apache Spark,验证安装,运行spark-shell,并创建Spark DataFrame。
在Mac OS上安装最新版本Apache Spark的步骤如下:
- Step 1:安装 Homebrew
- Step 2:安装Java
- Step 3:安装Scala
- Step 4:安装最新版本的Apache Spark
- Step 5:运行spark-shell并验证安装
1. 安装 Homebrew
Homebrew是macOS的缺失包管理器,用于在Mac (macOS)上安装第三方包,如Java和Apache Spark。为了使用Homebrew,首先,需要使用下面的命令来安装它。
/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"
然后会提示输入root密码。需要输入您的root密码才能运行此命令。在个人笔记本电脑上,这与你登录Mac时输入的密码相同。成功安装homebrew后,应该看到如下所示的内容。
安装之后,可能需要运行下面的命令来将brew设置为$PATH。
echo 'eval "$(/opt/homebrew/bin/brew shellenv)"' >> /Users/admin/.zprofile eval "$(/opt/homebrew/bin/brew shellenv)"
2. 安装Java
Spark的底层需要使用Java,因此需要在自己的Mac上安装有Java。因为Java是第三方的,所以可以使用Homebrew命令brew安装它。由于Oracle Java不再是开源的,本教程使用的是OpenJDK版本11。在终端运行以下命令安装。
brew install openjdk@11
3. 安装Scala
由于Apache Spark是用Scala语言编写的,因此显然需要Scala来运行Spark程序。安装Scala的命令如下:
brew install scala
4. 安装Apache Spark
可以使用Homebrew在Mac上下载并安装最新版本的Apache Spark。
brew install apache-spark
这将在Mac OS上安装最新版本的Apache Spark。安装过程如下图所示:
Apache Spark最新版本安装成功后,在命令行中执行spark-shell命令启动Spark shell。应该看到如下所示的内容(暂时忽略警告)。spark-shell是Apache Spark发行版附带的CLI实用程序。
注意,它会显示在终端上使用的Spark版本和Java版本。
5. 从Shell验证Spark安装
让我们用一些示例数据创建一个Spark DataFrame来验证安装。在Spark Shell中依次输入以下命令:
import spark.implicits._
val data = Seq(("Java", "20000"), ("Python", "100000"), ("Scala", "3000"))
val df = data.toDF()
df.show()
执行过程和输出结果,如下图所示:
这时,打开浏览器,访问http://localhost:4041/jobs/地址,可以打开Spark Web UI,查看作业执行情况。
课程章节 返回课程首页
-
Ch01 Spark架构与集群搭建
-
Ch02 开发和部署Spark程序
-
Ch03 Spark核心编程
-
Ch04 Spark SQL编程
-
Ch05 Spark SQL编程(高级)
-
Ch06 Spark Streaming流处理
-
Ch07 Spark结构化流处理
-
ch08 Spark结构化流(高级)
-
综合项目实训