分享大数据领域的最新技术、实践经验和行业动态
问题描述
使用Spark SQL将DataFrame(列名为中文)写入到Iceberg Hive Catalog中时,出现如下异常信息,并且写入失败:
“org.apache.spark.sql.AnalysisException: org.apache.hadoop.hive.ql.met...
问题描述
最近,当我使用Spark SQL构建的ETL写入数据到Hive ODS中时,出现如下异常信息:
Caused by: org.apache.spark.SparkUpgradeException: You may get a different result due to the ...
问题描述:
Hive启动时,给出如下警告信息:
which: no hbase in (/opt/java/jdk1.8.0_101/bin:......
问题剖析:
默认Hive启动时,会对HBase进行检查,查找bin/...
通常会将大量数据抽取到Hadoop分布式文件系统(HDFS)中进行分析。通常情况下,我们需要用新的变化定期更新这些数据。很长一段时间以来,实现这一目标的最常见方法是使用Apache Hive增量地将新的或更新的记录合并到现有数据集中。增量合并也可以使用Apache Spark执行。在这篇博客中,我将探索如何使用Spark SQL和Spark DataFrame增量更新数据,并演示三种不同的实...
在flink-1.13.2中测试执行批处理版本的单词计数程序时,出现"Exception in thread "Thread-5" java.lang.IllegalStateException: T
问题描述
在flink-1.13.2中测试执行批处理版本的单词计数程序时:
$ cd ~/bigdata/flink-1.13.2
$ ./bin/flink run -t yarn-per-job -p 2 -yjm 1G -ytm 1G ./examples/batch/WordCoun...
热门标签
大数据
Spark
Flink
Hadoop
性能优化
流处理
数据分析
关于博客
这里是大数据技术博客专区,定期发布最新的技术文章、实践经验和行业动态,欢迎大家交流学习!