Spark SQL内置函数

为了帮助执行复杂的分析，Spark SQL提供了一组强大而灵活的聚合函数、连接多个数据集的函数、一组内置的高性能函数和一组高级分析函数。本章将详细介绍这些主题。另外本章还介绍了Spark SQL模块的一些高级功能，并解释Catalyst优化器和Tungsten引擎所提供的优化和执行效率。

为了有效地使用Spark SQL执行分布式数据操作，必须熟练使用Spark SQL函数。

Spark SQL提供了超过200个内置函数，它们被分组到不同的类别中。

按类别来分，SQL函数可分为四类：

标量函数和聚合函数位于org.apache.spark.sql.functions包内。在使用前，需要先导入它：

import org.apache.spark.sql.functions._

如果是使用spark-shell或zeppelin进行交互式分析，则会自动导入该包。

Spark提供了大量的标量函数，主要完成：

下面我们详细来了解这些函数及其用法。

日期时间函数

Spark内置的日期时间函数大致可分为以下三个类别：

详细使用方法，请参考我的讲课视频：Spark内置的日期时间函数

字符串函数和数学计算函数

Spark SQL内置的字符串函数提供了操作字符串类型列的通用和强大的方法。一般来说，这些函数分为两类。

最常见的字符串转换包括去空格、填充、大写转换、小写转换和字符串连接等。

Spark SQL还提供有许多对数值类型列进行计算的函数，其中最经常用到的是round函数，它对传入的列值执行一个四舍五入计算。这个函数有两种方法签名：

字符串函数和数学计算函数详细使用方法，请参考我的讲课视频：Spark内置字符串函数和数学计算函数

数组函数

Spark 3增加了一些新的数组函数，其中的transform和aggregate 数组函数是功能特别强大的通用函数。它们提供的功能相当于Scala中的map和fold，使ArrayType列更容易处理。

关于Spark 3中的数组函数，请参考这篇博客：Spark 3新增数组函数

小白学苑