示例_数据整合、清洗与转换

原始数据通常是混乱的,需要进行一系列转换才能用于建模和分析工作。这样的数据集可能有丢失的数据、重复的记录、损坏的数据、不完整的记录等等。而数据清理,是把原始数据转换成可用的格式。在大多数项目中,这是最具挑战性和最耗时的一步。

数据清理阶段是一个非常重要的阶段,不仅对于算法来说是正确的,而且还可以让我们更好地理解我们的数据,这样我们就可以在实现算法的同时采取正确的方法。数据处理是执行机器所必需的关键步骤。我们需要对数据进行清洗、筛选、合并和转换,以将其转换为所需的形式,从而能够训练机器学习模型。

下面将通过示例演示在Spark中如何实现:

数据整合

一旦数据从不同的来源获得,接一来就是将它们全部合并,以便将数据作为一个整体进行清理、格式化,并转换为分析所需的格式。

在本节中,我们将讨论如何组合从各种数据源获得的数据。为了更好地理解数据获取和准备阶段,这里我们假设这样的场景:员工数据分散存储在本地的RDD、JSON文件和关系型数据库中。

1、数据加载:下面演示了从不同数据源(内存集合、文件等)加载数据到Dataset中。

// 创建一个RDD并转换为DataFrame
val employeesDF = sc.parallelize(List((1, "陈柯宇", 25), (2, "陶心瑶", 35),(3, "楼一萱", 24), 
                    ......
          

......

抱歉,只有登录会员才可浏览!会员登录


《Flink原理深入与编程实战》