分享大数据领域的最新技术、实践经验和行业动态

标签: Scala

因为Scala API和Java API可以互操作,所以在使用Scala API开发Spark应用时,我们经常会遇到这样的场景:调用Java的API库/包,返回的是java.util.List类型,但是我们需要的是Scala的List类型(scala.collection.immutable.List)。

换句话说,如何把java.util.List类型转换为Sc...

标签: Hive

问题描述

我有一个Hive表,在其上创建了一个视图。然后查询视图,结果发现视图中的中文列值全显示为?(问号)。

问题原因

虽然Hive元数据库编码设置为utf8,但是TBLS表的定义却有自己的编码。我们登录Hive的元数据库MySQL,打开数据库hive,查看TBLS表的create table语句:

...

Flink程序外部传参

2021-11-16 · 0
标签: Flink

从Flink 0.9开始,在Flink中就有了一个内置的ParameterTool,它可以帮助从外部源(如命令行参数、系统属性或属性文件)获取参数。在内部,它是字符串的map映射,保留key作为参数名,value作为参数值。

例如,我们可以考虑在DataStream API示例中使用ParameterTool,我们需要在其中设置Kafka属性:

...

Spark 3新增数组函数

2021-11-15 · 0
标签: Spark

Spark 3新增加了许多数组函数,以方便数据处理。下面我们为大家逐一介绍。

exists函数

方法签名:

def exists(colum...

热门标签
大数据 Spark Flink Hadoop 性能优化 流处理 数据分析
关于博客

这里是大数据技术博客专区,定期发布最新的技术文章、实践经验和行业动态,欢迎大家交流学习!