logo

小白学苑PBCP

PBCP, 让大数据竞赛更简单!

大数据应用开发赛题第10套_任务B:离线数据处理_子任务三:指标计算(DolphinScheduler)

子任务描述

1、本任务基于以下2、3、4小题完成,使用DolphinScheduler完成第2、3、4题任务代码的调度。工作流要求,使用shell输出“开始”作为工作流的第一个job(job1),2、3、4题任务为并行任务且它们依赖job1的完成(命名为job2、job3、job4),job2、job3、job4完成之后使用shell输出“结束”作为工作流的最后一个job(endjob),endjob依赖job2、job3、job4,并将最终任务调度完成后的工作流截图,将截图粘贴至客户端桌面【Release\任务B提交结果.docx】中对应的任务序号下;

子任务分析

这个子任务来自开发赛题4套、5套、8套、9套、10套中的“子任务三:指标计算”部分。

根据题意描述,这个子任务是要求使用DolphinScheduler实现一个工作流任务。该工作流任务共包含5个子任务,其中第一个子任务和最后一个子任务是Linux Shell语句,中间的3个子任务是Spark作业。

为了演示使用DolphinScheduler实现工作流任务,下面的实现稍微做了简化,如下图所示:

会员登录