小白学苑PBCP

PBCP, 让大数据竞赛更简单!

抱歉，只有登录会员才可浏览！<a href='/member/login'>会员登录</a>

工作流调度工具_Azkaban简介与安装

为什么需要工作流调度工具？

一个完整的大数据分析系统，通常都是由大量任务单元组成：shell 脚本程序、Java 程序、MapReduce 程序、Hive 脚本、Spark程序等。各任务单元之间存在时间先后及前后依赖关系，所有的任务单元及其之间的依赖关系组成了复杂的工作流。

例如，公司可能有这样一个需求，某个业务系统每天产生20G原始数据，我们每天都要对其进行处理，处理步骤如下所示：

通过Hadoop先将原始数据上传到HDFS上（HDFS的操作）；
使用MapReduce对原始数据进行清洗（MapReduce的操作）；？
将清洗后的数据导入到hive表中（hive的导入操作）；？
对Hive中多个表的数据进行JOIN处理，得到一张hive的明细表（创建中间表）；
通过对明细表的统计和分析，得到结果报表信息（hive的查询操作）；

一般来说，简单的任务调度，可以直接使用Linux的crontab来定义。而复杂的工作流管理涉及到很多问题，比如：

如何定时调度某个任务？
如何在某个任 ......
......

抱歉，只有登录会员才可浏览！会员登录