使用Zeppelin进行交互式分析
Apache Zeppelin是一款基于Web的NoteBook,支持交互式数据分析。使用Zeppelin,可以使用丰富的预构建语言后端(或解释器)制作精美的数据驱动、交互式和协作文档。目前,Apache Zeppelin支持Apache Spark、Python、JDBC、Markdown和Shell等多种解释器。
特别是,Apache Zeppelin提供了内置的Apache Spark集成。我们不需要为它构建单独的模块、插件或库。Apache Zeppelin与Spark集成,提供了如下功能:
- 自动注入SparkContext和SQLContext;
- 从本地文件系统或maven存储库加载运行时jar依赖项;
- 取消作业并显示进度。
Apache Zeppelin专注于企业级应用,Zeppelin Notebook可以满足以下企业用户以下需求:
- 数据摄取
- 数据发现
- 数据分析
- 数据可视化与协作
接下来,我们学习如何安装Zeppelin和配置Zeppelin解释器,并演示如何使用Zepplin Notebook作为Spark的交互式数据分析工具进行大数据的分析和数据可视化。
下载zeppelin安装包
Apache Zeppelin的下载地址为:http://zeppelin.apache.org/download.html。请选择图中所示的版本: