小白学苑-大数据技术博客

分享大数据领域的最新技术、实践经验和行业动态

如何将java.util.List转换为Scala的List?

2021-12-08 · 0

标签: Scala

因为Scala API和Java API可以互操作，所以在使用Scala API开发Spark应用时，我们经常会遇到这样的场景：调用Java的API库/包，返回的是java.util.List类型，但是我们需要的是Scala的List类型(scala.collection.immutable.List)。

换句话说，如何把java.util.List类型转换为Sc...

Hive中创建视图出现中文乱码问题及解决方法

2021-11-29 · 0

标签: Hive

问题描述

我有一个Hive表，在其上创建了一个视图。然后查询视图，结果发现视图中的中文列值全显示为?（问号）。

问题原因

虽然Hive元数据库编码设置为utf8，但是TBLS表的定义却有自己的编码。我们登录Hive的元数据库MySQL，打开数据库hive，查看TBLS表的create table语句：

...

Hive读取Spark生成的Parquet数据时出现org.apache.parquet.io.ParquetDecodingException问题的原因及解决办法

2021-11-21 · 0

标签: Spark

问题描述

我们在Spark中，使用DataFrame.saveAsTable()方法将DataFrame存入到Hive数据仓库中。然后在hive shell中直接使用Hive QL查询表数据，出现如下异常：

Failed with exception java.io.IOException:or...

Flink程序外部传参

2021-11-16 · 0

标签: Flink

从Flink 0.9开始，在Flink中就有了一个内置的ParameterTool，它可以帮助从外部源（如命令行参数、系统属性或属性文件）获取参数。在内部，它是字符串的map映射，保留key作为参数名，value作为参数值。

例如，我们可以考虑在DataStream API示例中使用ParameterTool，我们需要在其中设置Kafka属性：

...

Spark 3新增数组函数

2021-11-15 · 0

标签: Spark

Spark 3新增加了许多数组函数，以方便数据处理。下面我们为大家逐一介绍。

exists函数

方法签名：

def exists(colum...

热门标签

大数据 Spark Flink Hadoop 性能优化流处理数据分析

关于博客

这里是大数据技术博客专区，定期发布最新的技术文章、实践经验和行业动态，欢迎大家交流学习！