大数据应用开发赛题第02套_任务B:离线数据处理_子任务三:指标计算(Azkaban)
子任务描述
1、本任务基于以下2、3、4小题完成,使用Azkaban完成第2、3、4题任务代码的调度。工作流要求,使用shell输出“开始”作为工作流的第一个job(job1),2、3、4题任务为并行任务且它们依赖job1的完成(命名为job2、job3、job4),job2、job3、job4完成之后使用shell输出“结束”作为工作流的最后一个job(endjob),endjob依赖job2、job3、job4,并将最终任务调度完成后的工作流截图,将截图粘贴至客户端桌面【Release\任务B提交结果.docx】中对应的任务序号下;()
子任务分析
这个子任务来自开发赛题1套、2套、3套、4套、6套、7套中的子“任务三:指标计算”部分。
根据题意描述,这个子任务是要求使用Azkaban实现一个工作流任务。该工作流任务共包含5个子任务,如下图所示:

- (1)job1:shell语句。
- (2)job2:Spark数据计算程序。
- (3)job3:Spark数据计算程序。
- (4)job4:Spark数据计算程序。
- (5)endjob:shell语句。
以上5个任务的依赖关系如下:job2依赖job1,job3依赖job1,job4依赖job1,endjob依赖job2、job3和job4,job2、job3和job4之间没 ......
......
抱歉,只有登录会员才可浏览!会员登录