GraphX案例:分析真实航班数据

我们使用2014年1月份的航班数据。对于每次航班,我们都有以下信息:

在这个场景中,我们将机场表示为顶点,而航线表示为边。我们对机场和航线的可视化很感兴趣,我们想知道有多少机场起飞或抵达。

// 首先导入依赖包
import org.apache.spark.graphx.{Edge, Graph, VertexId}
import org.apache.spark.sql.SparkSession
import org.apache.spark.sql.types._

然后,定义一个case calss:

// 使用case class来定义Flight Schema,与CSV数据文件相对应
case class Flight(dofM:String,
                  dofW:String,
                  carrier:String,
                  tailnum:String,
                  flnum:Integer,
                  org_id:Long,
                  origin:String,
                  dest_id:Long,
                  dest:String,
                  crsdeptime:Double,
                  deptime:Doub ......
          

......

抱歉,只有登录会员才可浏览!会员登录


《Spark原理深入与编程实战》