航班延误数据集分析

我们将使用美国交通部的一些航班信息,探索最导致航班延误的航班属性。使用Spark Dataset,我们将探索这些航班数据来回答以下问题:当航班延误超过40分钟时,

  • 哪家航空公司的航班延误次数最多?
  • 每周哪几天的航班延误次数最多?
  • 哪些始发机场的航班延误次数最多?
  • 每天什么时候的航班延误次数最多?

航班数据是JSON文件,每个航班记录有以下信息:

属性	         含义
id	             ID,由由承运人、日期、出发地、目的地、航班号组成
dofW	         星期几(1 = Monday星期一,7 = Sunday星期日)
carrier	         承运人代码
origin	         起始机场代码
dest	             目的地机场代码
crsdephour	 规定起飞时间hour(scheduled departure hour )
crsdeptime	 规定起飞时间time(scheduled departure time)
depdelay	     起飞延误分钟数(departure delay in minutes)
crsarrtime	 预定到达时间(scheduled arrival time)
arrdelay	     到达延误分钟数(arrival delay minutes)
crselapsedtime	 飞行时间
dist	              ......
          

......

抱歉,只有登录会员才可浏览!会员登录


《Spark原理深入与编程实战》