小白学苑-大数据技术博客

2022-02-25 · 0

标签: Spark

以Kafka作为流数据源，编写PySpark Structured Streaming流程序，读取Kafka指定主题，运行时失败，抛出如下异常信息：

20/06/14 12:19:18 ERROR Executor: Exception in task 0.0 in stage 1...

2022-02-17 · 0

标签: 数据湖

近年来，我们看到了数据湖新存储层的增加。2017年，优步宣布了Hudi，一种用于数据管道的增量处理框架。2018年，Netflix推出了Iceberg，一种管理超大云数据集的新表格格式。2019年，Databricks开放了Delta Lake，最初打算将ACID事务引入数据湖。

这篇文章的目的是介绍这些引擎，并深入了解它们是如何运作的，以及它们之间的一些...

2022-02-17 · 0

标签: 数据湖

数据湖提供了一个完整和权威的数据存储，可以为数据分析、商业智能和机器学习提供动力。

数据湖是保存大量原始数据的中心位置。与将数据存储在文件或文件夹中的分层数据仓库相比，数据湖采用扁平架构和对象存储来存储数据。‍对象存储使用元数据标签和唯一标识符存储数据，便于跨分区查找和检索数据，提高性能。通过利用廉价...

2022-01-27 · 0

标签: Spark

在Spark 3中，当我们想要通过spark.conf.set方法设置配置参数时，如下：

spark.conf.set("spark.executor.cores", "2")

这时，会出现如下错误信息：

Sca...

2021-12-10 · 0

标签: Spark

问题描述

最近安装了新版的IDEA 2021.2.2。当我要创建Spring MVC Maven项目时，突然发现，archetype项目模板的列表中只显示两个Kotlin的项目模板，其他模板都不见了。

问题分析

出现这个问题，是因为在新版本的IDEA中，没有内置模板。所以我们通过插...

热门标签

大数据 Spark Flink Hadoop 性能优化流处理数据分析

关于博客

这里是大数据技术博客专区，定期发布最新的技术文章、实践经验和行业动态，欢迎大家交流学习！