实验:安装和配置Spark
为了学习Spark,最好在我们自己的计算机上本地安装Spark。通过这种方式,我们可以轻松地尝试Spark特性或使用小型数据集测试数据处理逻辑。
Spark是用Scala编程语言编写的,在安装Spark之前,确保已经在自己的计算机上安装了Java(JDK 8)。
安装Spark
要在自己的计算机上本地安装Spark,请按以下步骤操作。
1)下载预先打包的二进制文件到"~/software"目录下,它包含运行Spark所需的JAR文件。下载
2)将其解压缩到"~/bigdata/"目录下,并改名为spark-2.4.5。执行命令如下:
$ cd ~/bigdata $ tar -zxvf ~/software/spark-2.4.5-bin-hadoop2.7.tgz $ mv spark-2.4.5-bin-hadoop2.7 spark-2.4.5
3)配置环境变量。打开"/etc/profile"文件:
$ cd $ sudo nano /etc/profile
在文件最后,添加如下内容:
export SPARK_HOME=/home/hduser/bigdata/spark-2.4.5 export PATH=$SPARK_HOME/bin:$PATH
保存文件并关闭。
4)执行/etc/profile文件使得配置生效:
$ source /etc/profile
查看解压缩后的Spark安装目录,会发现其中包含多个目录:
其中几个主要目录作用如下表所示:
配置Spark
Spark的配置文件位于conf目录下。接下来,我们对Spark进行配置,包括其运行环境和集群配置参数。
(1)从模板文件复制一份spark-env.sh。执行以下命令:
$ cd ~/spark-2.4.5/conf $ cp spark-env.sh.template spark-env.sh
(2)编辑spark-env.sh。执行以下命令:
$ nano spark-env.sh
在打开的"spark-env.sh"文件末尾,添加以下内容,并保存:
export JAVA_HOME=/usr/local/jdk1.8.0_251 export SPARK_DIST_CLASSPATH=$(/home/hduser/dt/hadoop-2.7.3/bin/hadoop classpath)
测试Spark
配置完成后就可以直接使用,不需要像Hadoop运行启动命令。
通过运行Spark自带的示例,验证Spark是否安装成功。
本地模式下:
$ ./bin/spark-submit \ --class org.apache.spark.examples.SparkPi \ --master local[*] \ ./examples/jars/spark-examples_2.11-2.4.5.jar
执行过程如下所示:
或者,也可以standalone模式(需要先执行./sbin/start-all.sh启动Spark集群):
$ cd ~/bigdata/spark-2.4.5 $ ./sbin/start-all.sh $ ./bin/spark-submit \ --class org.apache.spark.examples.SparkPi \ --master spark://cda:7077 \ ./examples/jars/spark-examples_2.11-2.4.5.jar
执行过程如下所示: