【博客】不能在IntelliJ IDEA中添加archetype原型的问题

2022-03-23 12:52:40.0

问题描述

无法在IntelliJ IDEA的新项目向导中添加新的Maven原型。

安装了IntelliJ IDEA 2021.2,在创建F ......

【博客】2022年需要了解的17大数据工具和技术

2022-03-15 19:17:03.0

在大数据应用中,有很多工具可用。下面是17种流行的开源技术,以及关于NoSQL数据库的附加信息。

......

【博客】PySpark中如何处理科学记数表示?

2022-03-04 20:25:57.0

最近,我正在研究PySpark过程,在这个过程中,需要对大的数字应用一些聚合。 输出的结果是准确的,但它是以指数格式或科学表示法的形式输出的。这在展示中绝对不好看。例如,1.0125000010 ......

【博客】什么是Parquet文件格式,为什么应该使用它?

2022-03-03 19:57:22.0

Apache Parquet是大数据体系结构中的重要组件。自2013年首次引入以来,Apache Parquet作为一种免费和开放源代码的存储格式被广泛采用,用于快速分析查询。AWS在其数据湖导 ......

【博客】PySpark读取Kafka主题失败:java.lang.NoClassDefFoundError

2022-02-25 18:11:32.0

问题描述

以Kafka作为流数据源,编写PySpark Structured Streaming流程序,读取Kafka指定主题,运行时失败,抛出如下异常信息:

......

【博客】数据湖简介

2022-02-18 11:13:48.0

数据湖提供了一个完整和权威的数据存储,可以为数据分析、商业智能和机器学习提供动力。

什么是数据湖?

数据湖是保存大量原 ......

【博客】现代数据湖存储层介绍

2022-02-18 11:05:57.0

近年来,我们看到了数据湖新存储层的增加。2017年,优步宣布了Hudi,一种用于数据管道的增量处理框架。2018年,Netflix推出了Iceberg,一种管理超大云数据集的新表格格式。2019 ......

【博客】在Spark3中无法通过spark.conf.set方法设置配置

2022-01-27 16:18:04.0

问题描述

在Spark 3中,当我们想要通过spark.conf.set方法设置配置参数时,如下:

阅读全部内容

【博客】关于IDEA 2021.2.2 新建maven项目时只显示两个archetype项目模板的问题

2021-12-10 17:26:41.0

问题描述

最近安装了新版的IDEA 2021.2.2。当我要创建Spring MVC Maven项目时,突然发现,archetype项目模板的列表中只显 ......

【博客】如何将java.util.List转换为Scala的List?

2021-12-08 20:02:38.0

因为Scala API和Java API可以互操作,所以在使用Scala API开发Spark应用时,我们经常会遇到这样的场景:调用Java的API库/包,返回的是java.util.List类 ......

【博客】Hive中创建视图出现中文乱码问题及解决方法

2021-11-29 15:36:41.0

问题描述

我有一个Hive表,在其上创建了一个视图。然后查询视图,结果发现视图中的中文列值全显示为?(问号)。

问题原因

......

【博客】Hive读取Spark生成的Parquet数据时出现org.apache.parquet.io.ParquetDecodingException问题的原因及解决办法

2021-11-22 12:13:43.0

问题描述

我们在Spark中,使用DataFrame.saveAsTable()方法将DataFrame存入到Hive数据仓库中。然后在hive shell中直接使用 ......

【博客】Flink程序外部传参

2021-11-17 13:37:24.0

从Flink 0.9开始,在Flink中就有了一个内置的ParameterTool,它可以帮助从外部源(如命令行参数、系统属性或属性文件)获取参数。在内部,它是字符串的map映射,保留key作为 ......

【博客】Spark 3新增数组函数

2021-11-15 17:12:21.0

Spark 3新增加了许多数组函数,以方便数据处理。下面我们为大家逐一介绍。

......

【博客】Spark InputCoercionException异常

2021-11-15 17:11:33.0

在IntellIJ IDEA中开发Spark程序,当调用dataframe.show()方法时,却出现如下错误信息:Caused by: java.lang.ClassNotFoundExcep ......

【博客】PySpark SQL: 将Python字典列表转换为PySpark DataFrame

2021-11-05 09:26:58.0

1、从字典推断schema

从Spark 2.x开始,可直接从python字典推断出schema。

阅读全部内容