航班延误数据集分析
我们将使用美国交通部的一些航班信息,探索最导致航班延误的航班属性。使用Spark Dataset,我们将探索这些航班数据来回答以下问题:当航班延误超过40分钟时,
- 哪家航空公司的航班延误次数最多?
- 每周哪几天的航班延误次数最多?
- 哪些始发机场的航班延误次数最多?
- 每天什么时候的航班延误次数最多?
航班数据是JSON文件,每个航班记录有以下信息:
属性 含义 id ID,由由承运人、日期、出发地、目的地、航班号组成 dofW 星期几(1 = Monday星期一,7 = Sunday星期日) carrier 承运人代码 origin 起始机场代码 dest 目的地机场代码 crsdephour 规定起飞时间hour(scheduled departure hour ) crsdeptime 规定起飞时间time(scheduled departure time) depdelay 起飞延误分钟数(departure delay in minutes) crsarrtime 预定到达时间(scheduled arrival time) arrdelay 到达延误分钟数(arrival delay minutes) crselapsedtime 飞行时间 dist   ............
抱歉,只有登录会员才可浏览!会员登录