【博客】Spark3中的日期写入问题
2022-10-17 10:04:02.0
【博客】Hive启动时有警告信息"which : no hbase in ......"
2022-09-22 22:27:04.0
问题描述:
Hive启动时,给出如下警告信息:
which: no hbase in (/o ......
【博客】在Spark中实现增量合并(upsert/merge实现)
2022-07-21 20:34:48.0
通常会将大量数据抽取到Hadoop分布式文件系统(HDFS)中进行分析。通常情况下,我们需要用新的变化定期更新这些数据。很长一段时间以来,实现这一目标的最常见方法是使用Apache Hive增量 ......
【博客】在flink-1.13.2中测试执行批处理版本的单词计数程序时,出现"Exception in thread "Thread-5" java.lang.IllegalStateException: T
2022-04-11 08:48:23.0
问题描述
在flink-1.13.2中测试执行批处理版本的单词计数程序时:
$ cd ~/big ......
【博客】IDEA Maven项目报Cannot resolve plugin org.scala-tools:maven-scala-plugin:<unknown>问题
2022-04-06 09:01:45.0
问题描述
在IDEA Maven开发Spark项目的pom.xml中,报“Cannot resolve plugin org.scala-tools:maven-sc ......
【博客】不能在IntelliJ IDEA中添加archetype原型的问题
2022-03-23 12:52:40.0
问题描述
无法在IntelliJ IDEA的新项目向导中添加新的Maven原型。
安装了IntelliJ IDEA 2021.2,在创建F ......
【博客】2022年需要了解的17大数据工具和技术
2022-03-15 19:17:03.0
在大数据应用中,有很多工具可用。下面是17种流行的开源技术,以及关于NoSQL数据库的附加信息。
......【博客】PySpark中如何处理科学记数表示?
2022-03-04 20:25:57.0
最近,我正在研究PySpark过程,在这个过程中,需要对大的数字应用一些聚合。 输出的结果是准确的,但它是以指数格式或科学表示法的形式输出的。这在展示中绝对不好看。例如,1.0125000010 ......
【博客】什么是Parquet文件格式,为什么应该使用它?
2022-03-03 19:57:22.0
Apache Parquet是大数据体系结构中的重要组件。自2013年首次引入以来,Apache Parquet作为一种免费和开放源代码的存储格式被广泛采用,用于快速分析查询。AWS在其数据湖导 ......
【博客】PySpark读取Kafka主题失败:java.lang.NoClassDefFoundError
2022-02-25 18:11:32.0
问题描述
以Kafka作为流数据源,编写PySpark Structured Streaming流程序,读取Kafka指定主题,运行时失败,抛出如下异常信息:
......【博客】数据湖简介
2022-02-18 11:13:48.0
数据湖提供了一个完整和权威的数据存储,可以为数据分析、商业智能和机器学习提供动力。
什么是数据湖?
数据湖是保存大量原 ......
【博客】现代数据湖存储层介绍
2022-02-18 11:05:57.0
近年来,我们看到了数据湖新存储层的增加。2017年,优步宣布了Hudi,一种用于数据管道的增量处理框架。2018年,Netflix推出了Iceberg,一种管理超大云数据集的新表格格式。2019 ......
【博客】在Spark3中无法通过spark.conf.set方法设置配置
2022-01-27 16:18:04.0
【博客】关于IDEA 2021.2.2 新建maven项目时只显示两个archetype项目模板的问题
2021-12-10 17:26:41.0
问题描述
最近安装了新版的IDEA 2021.2.2。当我要创建Spring MVC Maven项目时,突然发现,archetype项目模板的列表中只显 ......
【博客】如何将java.util.List转换为Scala的List?
2021-12-08 20:02:38.0
因为Scala API和Java API可以互操作,所以在使用Scala API开发Spark应用时,我们经常会遇到这样的场景:调用Java的API库/包,返回的是java.util.List类 ......
【博客】Hive中创建视图出现中文乱码问题及解决方法
2021-11-29 15:36:41.0
问题描述
我有一个Hive表,在其上创建了一个视图。然后查询视图,结果发现视图中的中文列值全显示为?(问号)。