Hive QL内置数学函数、集合函数、类型转换函数

Hive提供有许多内置函数来帮助我们处理和查询数据，包括：

字符串操作函数
数据操作函数
类型转换函数
条件运算符函数
数学函数

官方文档参考：查看

一、Hive数学函数

数学函数：主要用于一些常用的数学计算。

-- round（四舍五入）
-- 语法：round(DOUBLE a)           返回a的值，并对a四舍五入
--       round(DOUBLE a, INT d)    返回a的值，并按照d的值保留小数位和四舍五入
select round(46.5);
select round(46.499);
select round(12.3456,2);

-- ceil(向上取整)
-- 语法：ceil（DOUBLE a）
--       ceiling（DOUBLE a）
select ceil(87.2);
select ceiling(87.1);
select ceil(-23.98);

-- floor（向下取整）
-- 语法：floor(DOUBLE a)
select floor(2.89);
select floor(-2.89);

-- rand()求取随机数
-- 语法：rand()            每行返回一个double型随机数
--       rand(INT seed)    每行返回一个double型随机数，整数seed是随机因子的种子；
select rand();
select rand(100);


-- 其他常用的数学函数
-- exp(DOUBLE d)                返回e的 d幂次方，返回double型；
-- ln(DOUBLE d)	                以自然数为底d的对数，返回double型；
-- log10(DOUBLE d)              以10为底d的对数，返回double型；
-- log2(DOUBLE d)               以2为底d的对数，返回double型；
-- log(DOUBLE base, DOUBLE d)   以base为底d的对数，返回double型；
-- pow(DOUBLE d, DOUBLE p)      d的p次幂，返回double型；
-- sqrt(DOUBLE d) 	        d的平方根，返回double型；
-- abs(DOUBLE d)		计算double型d 的绝对值，返回double型；
-- sin(DOUBLE d)		返回d的正弦值，结果为double型；
-- asin(DOUBLE d)		返回d的反正弦值，结果为double型；
-- cos(DOUBLE d)		返回d 的余弦值，结果为double型；
-- tan(DOUBLE d)		返回d的正切值，结果为double型；
-- e()				数学常熟e,超越数；
-- PI()				数学常数Pi，圆周率；

-- --------------------------------------------------------------------------------------------------
-- 集合函数
-- 集合函数主要是对集合的操作处理。
-- size()  求长度
-- 语法：size(Map) 
--       size(Array)
-- 求map集合“1,'zhangsan',2,'lisi'”的长度：
select size(map(1,'zhangsan',2,'lisi'));

-- 求数组“1,'lisi',2”的长度：
select size(array(1,'lisi',2));

-- map_keys() 返回map集合中的所有key
-- 语法：map_keys(Map)
-- 求map集合“1,'zhangsan',2,'lisi'”的所有key
select map_keys(map(1,'zhangsan',2,'lisi'));
-- 类似的函数有map_values(Map)，返回map中的所有value
select map_values(map(1,'zhangsan',2,'lisi'));

-- array_contains() 判断数组中是否包含某个值
-- 语法：array_contains(Array, value)
-- 判断数组中是否含有“逾期”，“违约”这两字符串
select array_contains(array('逾期','违约'), '违约');
select array_contains(array('逾期','违约'), '逾期');
select array_contains(array('逾期','违约'), '诚信');

-- sort_array() 按自然顺序对数组进行排序并返回
-- 语法：sort_array(Array)
-- 对数组“3,5,2,'z',4,'a'”和“3,5,2,4”分别排序
select sort_array(array(3,5,2,'z',4,'a'));

-- ------------------------------------------------------------------------------------------------------
-- 类型转换函数
-- 将字符'3.56'转换为double数值类型
select cast('3.56' as double);

-- 将字符串'2019-11-06'转换为date类型
select cast('2019-11-06' as date);

二、【示例】天气数据分析

下面这个示例中，我们将通过编写Hive QL查询语句，使用Hive字符串函数来处理天气数据，主要目的是熟悉Hive数学函数的使用。

请参考Hive用例_分析气温监测数据(视频教程)

气象传感器在全球各个地方每小时收集一次数据，并聚集为大量的日志数据，每个气象站每年一个数据压缩包。这非常适合使用MapReduce进行分析（半结构化数据，面向记录的）本案例中使用NCDC(美国国家气象资料中心)的数据，这些数据使用一行一行的ASCII格式存储，每行一条记录。我们重点关注其中的温度值。

气象数据样本sample.txt：如下：

0067011990999991950051507004+68750+023550FM-12+038299999V0203301N00671220001CN9999999N9+00001+99999999999
0043011990999991950051512004+68750+023550FM-12+038299999V0203201N00671220001CN9999999N9+00221+99999999999
0043011990999991950051518004+68750+023550FM-12+038299999V0203201N00261220001CN9999999N9-00111+99999999999
0043012650999991949032412004+62300+010750FM-12+048599999V0202701N00461220001CN0500001N9+01111+99999999999
0043012650999991949032418004+62300+010750FM-12+048599999V0202701N00461220001CN0500001N9+00781+99999999999

年份和温度值如下度所示：

请按以下步骤执行：

1）创建存放天气日志数据的hive表

create table weather(line string);

2）加载数据文件到表中

load data inpath '/wd/wd-input/sample.txt' overwrite into table weather;

3）查询"年份"、"温度"值

select substr(line,16,4) as year,cast(substr(line,88,5) as int) as temp from weather;

4）查询每年的最高温度

select year,max(temp)
from(
  select substr(line,16,4) as year,
         cast(substr(line,88,5) as int) as temp 
  from weather
) as w
group by year;

小白学苑

让大数据学习更简单

Hive QL内置数学函数、集合函数、类型转换函数

一、Hive数学函数

二、【示例】天气数据分析