【博客】Spark3中的日期写入问题

2022-10-17 10:04:02.0

问题描述

最近,当我使用Spark SQL构建的ETL写入数据到Hive ODS中时,出现如下异常信息:

阅读全部内容

【博客】Hive启动时有警告信息"which : no hbase in ......"

2022-09-22 22:27:04.0

问题描述:

Hive启动时,给出如下警告信息:

which: no hbase in (/o ......

【博客】在Spark中实现增量合并(upsert/merge实现)

2022-07-21 20:34:48.0

通常会将大量数据抽取到Hadoop分布式文件系统(HDFS)中进行分析。通常情况下,我们需要用新的变化定期更新这些数据。很长一段时间以来,实现这一目标的最常见方法是使用Apache Hive增量 ......

【博客】在flink-1.13.2中测试执行批处理版本的单词计数程序时,出现"Exception in thread "Thread-5" java.lang.IllegalStateException: T

2022-04-11 08:48:23.0

问题描述

在flink-1.13.2中测试执行批处理版本的单词计数程序时:

$ cd ~/big ......

【博客】IDEA Maven项目报Cannot resolve plugin org.scala-tools:maven-scala-plugin:<unknown>问题

2022-04-06 09:01:45.0

问题描述

在IDEA Maven开发Spark项目的pom.xml中,报“Cannot resolve plugin org.scala-tools:maven-sc ......

【博客】不能在IntelliJ IDEA中添加archetype原型的问题

2022-03-23 12:52:40.0

问题描述

无法在IntelliJ IDEA的新项目向导中添加新的Maven原型。

安装了IntelliJ IDEA 2021.2,在创建F ......

【博客】2022年需要了解的17大数据工具和技术

2022-03-15 19:17:03.0

在大数据应用中,有很多工具可用。下面是17种流行的开源技术,以及关于NoSQL数据库的附加信息。

......

【博客】PySpark中如何处理科学记数表示?

2022-03-04 20:25:57.0

最近,我正在研究PySpark过程,在这个过程中,需要对大的数字应用一些聚合。 输出的结果是准确的,但它是以指数格式或科学表示法的形式输出的。这在展示中绝对不好看。例如,1.0125000010 ......

【博客】什么是Parquet文件格式,为什么应该使用它?

2022-03-03 19:57:22.0

Apache Parquet是大数据体系结构中的重要组件。自2013年首次引入以来,Apache Parquet作为一种免费和开放源代码的存储格式被广泛采用,用于快速分析查询。AWS在其数据湖导 ......

【博客】PySpark读取Kafka主题失败:java.lang.NoClassDefFoundError

2022-02-25 18:11:32.0

问题描述

以Kafka作为流数据源,编写PySpark Structured Streaming流程序,读取Kafka指定主题,运行时失败,抛出如下异常信息:

......

【博客】数据湖简介

2022-02-18 11:13:48.0

数据湖提供了一个完整和权威的数据存储,可以为数据分析、商业智能和机器学习提供动力。

什么是数据湖?

数据湖是保存大量原 ......

【博客】现代数据湖存储层介绍

2022-02-18 11:05:57.0

近年来,我们看到了数据湖新存储层的增加。2017年,优步宣布了Hudi,一种用于数据管道的增量处理框架。2018年,Netflix推出了Iceberg,一种管理超大云数据集的新表格格式。2019 ......

【博客】在Spark3中无法通过spark.conf.set方法设置配置

2022-01-27 16:18:04.0

问题描述

在Spark 3中,当我们想要通过spark.conf.set方法设置配置参数时,如下:

阅读全部内容

【博客】关于IDEA 2021.2.2 新建maven项目时只显示两个archetype项目模板的问题

2021-12-10 17:26:41.0

问题描述

最近安装了新版的IDEA 2021.2.2。当我要创建Spring MVC Maven项目时,突然发现,archetype项目模板的列表中只显 ......

【博客】如何将java.util.List转换为Scala的List?

2021-12-08 20:02:38.0

因为Scala API和Java API可以互操作,所以在使用Scala API开发Spark应用时,我们经常会遇到这样的场景:调用Java的API库/包,返回的是java.util.List类 ......

【博客】Hive中创建视图出现中文乱码问题及解决方法

2021-11-29 15:36:41.0

问题描述

我有一个Hive表,在其上创建了一个视图。然后查询视图,结果发现视图中的中文列值全显示为?(问号)。

问题原因

......