使用Jupyter Notebook进行交互式分析
数据分析师最喜欢的一个交互式分析工具是Jupyter Notebook,因此也希望在应用Spark进行大数据分析时也使用Jupyter。下面我们就配置PySpark与Jupyter的组合。
有两种方法可以使PySpark在Jupyter Notebook中可用:
- 配置PySpark驱动程序使用Jupyter Notebook:运行pyspark将自动打开一个Jupyter Notebook。
- 加载一个普通的Jupyter Notebook,并使用findSpark包加载PySpark。
第一种方法更快,但是特定于Jupyter笔记本;第二种方法是一种更广泛的方法,可以在自己喜欢的IDE中使用PySpark。
配置PySpark Driver使用Jupyter Notebook
请按以下步骤配置和启动Spark及Jupyter Notebook。
1)启动Spark集群:
$ cd ~/bigdata/spark-3.1.2 $ ./sbin/start-all.sh
2)指定驱动程序(driver)使用Jupyter Notebook。在终端窗口中,执行如下命令:
$ export PYSPARK_DRIVER_PYTHON="jupyter" $ export PYSPARK_DRIVER_PYTHON_OPTS="notebook --no-browser --ip=0.0.0.0"
注意,如果你是以root账户在进行操作,则还需要加 ......
......
抱歉,只有登录会员才可浏览!会员登录