小白学苑-大数据技术博客

分享大数据领域的最新技术、实践经验和行业动态

IDEA Maven项目报Cannot resolve plugin org.scala-tools:maven-scala-plugin:<unknown>问题

2022-04-05 · 0

标签: Spark

问题描述

在IDEA Maven开发Spark项目的pom.xml中，报“Cannot resolve plugin org.scala-tools:maven-scala-plugin:”错误问题。

解决方法

在pom.xml中添加如下两个依赖项：

不能在IntelliJ IDEA中添加archetype原型的问题

2022-03-22 · 0

标签: Flink

问题描述

无法在IntelliJ IDEA的新项目向导中添加新的Maven原型。

安装了IntelliJ IDEA 2021.2，在创建Flink项目时，想使用原型archetype (flink-quickstart-java/flink-quickstart-scala)，但是发现archetype列表中没有这两项。然后想通过Add...

2022年需要了解的17大数据工具和技术

2022-03-15 · 0

标签: Hadoop

在大数据应用中，有很多工具可用。下面是17种流行的开源技术，以及关于NoSQL数据库的附加信息。

大数据的世界正变得越来越大。各行各业的企业组织都在年复一年地生产更多的数据，他们也在寻找更多的方法来利用这些数据来改进运营、更好地了解客户、更快地以更低的成本交付产品以及其他应用程序。此...

PySpark中如何处理科学记数表示？

2022-03-04 · 0

标签: Spark

最近，我正在研究PySpark过程，在这个过程中，需要对大的数字应用一些聚合。输出的结果是准确的，但它是以指数格式或科学表示法的形式输出的。这在展示中绝对不好看。例如，1.0125000010125E-8，念作“E的负8次幂”。

另外，根据我的观察，如果通过JDBC连接从任何数据库读取数据，并且数据类型是DECIMAL且小数部分（scale）超过6，那么该值在S...

Apache Parquet是大数据体系结构中的重要组件。自2013年首次引入以来，Apache Parquet作为一种免费和开放源代码的存储格式被广泛采用，用于快速分析查询。AWS在其数据湖导出声明中(2019年)，是这样描述Parquet的：“与文本格式相比，在Amazon S3中卸载速度快2倍，存储空间消耗少6倍”。还建议将数据转换为Parquet或ORC等柱状格式，以提高Amazon...

热门标签

大数据 Spark Flink Hadoop 性能优化流处理数据分析

关于博客

这里是大数据技术博客专区，定期发布最新的技术文章、实践经验和行业动态，欢迎大家交流学习！

分享大数据领域的最新技术、实践经验和行业动态

IDEA Maven项目报Cannot resolve plugin org.scala-tools:maven-scala-plugin:<unknown>问题

问题描述

解决方法

不能在IntelliJ IDEA中添加archetype原型的问题

问题描述

2022年需要了解的17大数据工具和技术

PySpark中如何处理科学记数表示？

什么是Parquet文件格式，为什么应该使用它?