分享大数据领域的最新技术、实践经验和行业动态
问题描述
以Kafka作为流数据源,编写PySpark Structured Streaming流程序,读取Kafka指定主题,运行时失败,抛出如下异常信息:
20/06/14 12:19:18 ERROR Executor: Exception in task 0.0 in stage 1...
近年来,我们看到了数据湖新存储层的增加。2017年,优步宣布了Hudi,一种用于数据管道的增量处理框架。2018年,Netflix推出了Iceberg,一种管理超大云数据集的新表格格式。2019年,Databricks开放了Delta Lake,最初打算将ACID事务引入数据湖。
这篇文章的目的是介绍这些引擎,并深入了解它们是如何运作的,以及它们之间的一些...
数据湖提供了一个完整和权威的数据存储,可以为数据分析、商业智能和机器学习提供动力。
什么是数据湖?
数据湖是保存大量原始数据的中心位置。与将数据存储在文件或文件夹中的分层数据仓库相比,数据湖采用扁平架构和对象存储来存储数据。对象存储使用元数据标签和唯一标识符存储数据,便于跨分区查找和检索数据,提高性能。通过利用廉价...
问题描述
在Spark 3中,当我们想要通过spark.conf.set方法设置配置参数时,如下:
spark.conf.set("spark.executor.cores", "2")
这时,会出现如下错误信息:
Sca...
问题描述
最近安装了新版的IDEA 2021.2.2。当我要创建Spring MVC Maven项目时,突然发现,archetype项目模板的列表中只显示两个Kotlin的项目模板,其他模板都不见了。
问题分析
出现这个问题,是因为在新版本的IDEA中,没有内置模板。所以我们通过插...
热门标签
大数据
Spark
Flink
Hadoop
性能优化
流处理
数据分析
关于博客
这里是大数据技术博客专区,定期发布最新的技术文章、实践经验和行业动态,欢迎大家交流学习!