分享大数据领域的最新技术、实践经验和行业动态
因为Scala API和Java API可以互操作,所以在使用Scala API开发Spark应用时,我们经常会遇到这样的场景:调用Java的API库/包,返回的是java.util.List类型,但是我们需要的是Scala的List类型(scala.collection.immutable.List)。
换句话说,如何把java.util.List类型转换为Sc...
问题描述
我有一个Hive表,在其上创建了一个视图。然后查询视图,结果发现视图中的中文列值全显示为?(问号)。
问题原因
虽然Hive元数据库编码设置为utf8,但是TBLS表的定义却有自己的编码。我们登录Hive的元数据库MySQL,打开数据库hive,查看TBLS表的create table语句:
...问题描述
我们在Spark中,使用DataFrame.saveAsTable()方法将DataFrame存入到Hive数据仓库中。然后在hive shell中直接使用Hive QL查询表数据,出现如下异常:
Failed with exception java.io.IOException:or...
从Flink 0.9开始,在Flink中就有了一个内置的ParameterTool,它可以帮助从外部源(如命令行参数、系统属性或属性文件)获取参数。在内部,它是字符串的map映射,保留key作为参数名,value作为参数值。
例如,我们可以考虑在DataStream API示例中使用ParameterTool,我们需要在其中设置Kafka属性:
...Spark 3新增加了许多数组函数,以方便数据处理。下面我们为大家逐一介绍。
exists函数
方法签名:
def exists(colum...
热门标签
大数据
Spark
Flink
Hadoop
性能优化
流处理
数据分析
关于博客
这里是大数据技术博客专区,定期发布最新的技术文章、实践经验和行业动态,欢迎大家交流学习!