示例_数据整合、清洗与转换

原始数据通常是混乱的，需要进行一系列转换才能用于建模和分析工作。这样的数据集可能有丢失的数据、重复的记录、损坏的数据、不完整的记录等等。而数据清理，是把原始数据转换成可用的格式。在大多数项目中，这是最具挑战性和最耗时的一步。

数据清理阶段是一个非常重要的阶段，不仅对于算法来说是正确的，而且还可以让我们更好地理解我们的数据，这样我们就可以在实现算法的同时采取正确的方法。数据处理是执行机器所必需的关键步骤。我们需要对数据进行清洗、筛选、合并和转换，以将其转换为所需的形式，从而能够训练机器学习模型。

下面将通过示例演示在Spark中如何实现：

数据整合
数据清洗
数据转换

数据整合

一旦数据从不同的来源获得，接一来就是将它们全部合并，以便将数据作为一个整体进行清理、格式化，并转换为分析所需的格式。

在本节中，我们将讨论如何组合从各种数据源获得的数据。为了更好地理解数据获取和准备阶段，这里我们假设这样的场景：员工数据分散存储在本地的RDD、JSON文件和关系型数据库中。

1、数据加载：下面演示了从不同数据源（内存集合、文件等）加载数据到Dataset中。

// 创建一个RDD并转换为DataFrame
val employeesDF = sc.parallelize(List((1, "陈柯宇", 25), (2, "陶心瑶", 35),(3, "楼一萱", 24), 
                    ......
          ......

          
            
            
              抱歉，只有登录会员才可浏览！会员登录

小白学苑

让大数据学习更简单

示例_数据整合、清洗与转换

数据整合