分享大数据领域的最新技术、实践经验和行业动态

标签: Spark

问题描述

以Kafka作为流数据源,编写PySpark Structured Streaming流程序,读取Kafka指定主题,运行时失败,抛出如下异常信息:

20/06/14 12:19:18 ERROR Executor: Exception in task 0.0 in stage 1...

标签: 数据湖

近年来,我们看到了数据湖新存储层的增加。2017年,优步宣布了Hudi,一种用于数据管道的增量处理框架。2018年,Netflix推出了Iceberg,一种管理超大云数据集的新表格格式。2019年,Databricks开放了Delta Lake,最初打算将ACID事务引入数据湖。

这篇文章的目的是介绍这些引擎,并深入了解它们是如何运作的,以及它们之间的一些...

数据湖简介

2022-02-17 · 0
标签: 数据湖

数据湖提供了一个完整和权威的数据存储,可以为数据分析、商业智能和机器学习提供动力。

什么是数据湖?

数据湖是保存大量原始数据的中心位置。与将数据存储在文件或文件夹中的分层数据仓库相比,数据湖采用扁平架构和对象存储来存储数据。‍对象存储使用元数据标签和唯一标识符存储数据,便于跨分区查找和检索数据,提高性能。通过利用廉价...

标签: Spark

问题描述

在Spark 3中,当我们想要通过spark.conf.set方法设置配置参数时,如下:

spark.conf.set("spark.executor.cores", "2")

这时,会出现如下错误信息:

Sca...

标签: Spark

问题描述

最近安装了新版的IDEA 2021.2.2。当我要创建Spring MVC Maven项目时,突然发现,archetype项目模板的列表中只显示两个Kotlin的项目模板,其他模板都不见了。

问题分析

出现这个问题,是因为在新版本的IDEA中,没有内置模板。所以我们通过插...

热门标签
大数据 Spark Flink Hadoop 性能优化 流处理 数据分析
关于博客

这里是大数据技术博客专区,定期发布最新的技术文章、实践经验和行业动态,欢迎大家交流学习!