工作流调度工具_Azkaban简介与安装
为什么需要工作流调度工具?
一个完整的大数据分析系统,通常都是由大量任务单元组成:shell 脚本程序、Java 程序、MapReduce 程序、Hive 脚本、Spark程序等。各任务单元之间存在时间先后及前后依赖关系,所有的任务单元及其之间的依赖关系组成了复杂的工作流。
例如,公司可能有这样一个需求,某个业务系统每天产生20G原始数据,我们每天都要对其进行处理,处理步骤如下所示:
- 通过Hadoop先将原始数据上传到HDFS上(HDFS的操作);
- 使用MapReduce对原始数据进行清洗(MapReduce的操作);?
- 将清洗后的数据导入到hive表中(hive的导入操作);?
- 对Hive中多个表的数据进行JOIN处理,得到一张hive的明细表(创建中间表);
- 通过对明细表的统计和分析,得到结果报表信息(hive的查询操作);
一般来说,简单的任务调度,可以直接使用Linux的crontab来定义。而复杂的工作流管理涉及到很多问题,比如:
- 如何定时调度某个任务?
-
如何在某个任 ......
......
抱歉,只有登录会员才可浏览!会员登录