示例:使用Spark查找中位数和分位数
Spark中的中位数和分位数计算都可以使用DataFrame API或Spark SQL来执行。可以使用内置函数,如approxQuantile、percentile_approx、sort和selectExpr来执行这些计算。
在本教程中,我们将通过一些示例来学习如何使用Spark查找中位数和分位数。
下面我们创建一个包含产品销售信息的样例DataFrame,并尝试使用它计算销售额的中位数和分位数。
1、创建样例DataFrame
创建一个示例DataFrame,它包含两列: Product 和 Price。这个数据集表示销售信息,其中每行包含产品名称及其相应的价格。
// 导入依赖 import org.apache.spark.sql.SparkSession import org.apache.spark.sql.functions._ // 创建DataFrame val data = Seq( ("Product A", 100.0), ("Product B", 150.0), ("Product C", 200.0), ("Product D", 125.0), ("Product E", 180.0), ("Product F", 300.0), ("Product G", 220.0), ("Product H", 170.0), ("Product I", 240.0), ("Product J", 185.0) ) val df = spark.createDataFrame(data).toDF("Product", "Price") df.printSchema() df.show()
执行以上代码,输出内容如下 ......
......
抱歉,只有登录会员才可浏览!会员登录