实验:安装和配置Spark

为了学习Spark,最好在我们自己的计算机上本地安装Spark。通过这种方式,我们可以轻松地尝试Spark特性或使用小型数据集测试数据处理逻辑。

Spark是用Scala编程语言编写的,在安装Spark之前,确保已经在自己的计算机上安装了Java(JDK 8)。

安装Spark

要在自己的计算机上本地安装Spark,请按以下步骤操作。

1)下载预先打包的二进制文件到"~/software"目录下,它包含运行Spark所需的JAR文件。下载

2)将其解压缩到"~/bigdata/"目录下,并改名为spark-2.4.5。执行命令如下:

    $ cd ~/bigdata
    $ tar -zxvf ~/software/spark-2.4.5-bin-hadoop2.7.tgz
    $ mv spark-2.4.5-bin-hadoop2.7 spark-2.4.5       

3)配置环境变量。打开"/etc/profile"文件:

    $ cd
    $ sudo nano /etc/profile       

在文件最后,添加如下内容:

    export SPARK_HOME=/home/hduser/bigdata/spark-2.4.5
    export PATH=$SPARK_HOME/bin:$PATH    

保存文件并关闭。

4)执行/etc/profile文件使得配置生效:

    $ source /etc/profile      

查看解压缩后的Spark安装目录,会发现其中包含多个目录:

其中几个主要目录作用如下表所示:

配置Spark

Spark的配置文件位于conf目录下。接下来,我们对Spark进行配置,包括其运行环境和集群配置参数。

(1)从模板文件复制一份spark-env.sh。执行以下命令:

   $ cd ~/spark-2.4.5/conf
   $ cp spark-env.sh.template spark-env.sh    

(2)编辑spark-env.sh。执行以下命令:

   $ nano spark-env.sh   

在打开的"spark-env.sh"文件末尾,添加以下内容,并保存:

   export JAVA_HOME=/usr/local/jdk1.8.0_251
   export SPARK_DIST_CLASSPATH=$(/home/hduser/dt/hadoop-2.7.3/bin/hadoop classpath)    

测试Spark

配置完成后就可以直接使用,不需要像Hadoop运行启动命令。

通过运行Spark自带的示例,验证Spark是否安装成功。

本地模式下:

    $ ./bin/spark-submit \
     --class org.apache.spark.examples.SparkPi \
     --master local[*] \
    ./examples/jars/spark-examples_2.11-2.4.5.jar

执行过程如下所示:

或者,也可以standalone模式(需要先执行./sbin/start-all.sh启动Spark集群):

    $ cd ~/bigdata/spark-2.4.5
    $ ./sbin/start-all.sh
    $ ./bin/spark-submit \
    --class org.apache.spark.examples.SparkPi \
    --master spark://cda:7077 \
    ./examples/jars/spark-examples_2.11-2.4.5.jar

执行过程如下所示:


《Spark原理深入与编程实战》