Delta Lake介绍

Apache Spark没有提供数据处理系统最基本的特性，比如ACID事务和其他数据管理和数据治理功能。为了克服这个不足，Databricks（由Apache Spark的第一批工程师建立的组织）发布了Delta Lake，这是一个开放格式的数据管理和治理层，它结合了数据湖和数据仓库的优点，可为数据湖提供可靠性、安全性和性能—可用于流和批处理操作。

在Delta Lake中，将所有数据置于一个公共存储层，即数据湖。然后Delta Lake会让不同的引擎使用这些数据，如下图所示。

可以将Delta Lake理解为一个数据管理框架，它为数据湖带来了可靠性，安全性和性能。本质上，Delta Lake是一个文件系统，它在对象存储上存储批和流数据，以及用于表结构和模式实施的增量元数据将数据放入湖中是使用Delta ACID API完成的，而将数据从湖中取出是使用Delta JDBC连接器完成的。Delta数据不能被其他SQL查询引擎查询。如下图所示。

用户的程序不直接与存储层交互，而是通过使用Delta Lake API与数据湖通信来读写数据。Delta Lake提供了一个统一的平台，在单一平台上支持批处理和流处理工作负载。它充当计算和存储层之间的中间服务，如下图所示。

Delta Lake提供了ACID事务、快照隔离、数据版本控制和回滚，以及模式强制，以更好地处理模式变更和数据类型变量。具体来说，Delta Lake提供了以下特性：

(1) Spark上的ACID事务：Serializable隔离级别确保读取器永远不会看到不一致的数据。在Delta Lake表上进行的所有事务都直接存储到磁盘。
(2) 可扩展的元数据处理：利用Spark分布式处理能力，轻松处理具有数十亿个文件的的PB级规模表的所有元数据。
(3) 流和批处理的统一：Delta Lake中的表既是批处理表，又是流源和流汇。流式数据摄取，批量历史回填，交互式查询都是开箱即用的。
(4) 模式演变：自动处理模式变化，以防止在摄取期间插入错误记录。通过模式强制，以确保上传到表中的数据与它的模式相匹配。
(5) 时间旅行：数据版本化控制支持回滚、完整的历史审计跟踪和可复制的机器学习实验。
(6) upsert和delete：支持合并（merge）、更新（update）和删除（delete）操作，以支持复杂的用例，如变更数据捕获（CDC，change-data-capture）、渐变维度（SCD，slowly-changing-dimension）操作、流式upsert，等等。

Delta Lake支持两个隔离级别：Serializable和WriteSerializable。WriteSerializable比快照隔离更强大，它提供了可用性和性能的最佳组合，并且是默认设置。最强级别的Serializable隔离确保串行序列与表的历史记录完全匹配。

Delta Lake通过管理提交的并发性来负责并发的读写访问。这是通过使用乐观锁实现的。这意味着：

(1) 当一个提交执行开始时，线程快照当前DeltaLog。
(2) 提交actions完成后，线程会检查DeltaLog是否被另一个线程同时更新。如果没有，它将在DeltaLog中记录提交。否则，它更新其DeltaTable视图，并在重新处理步骤之后（如果需要）再次尝试注册提交。

这确保了隔离属性。

在Delta Lake表上进行的所有事务都直接存储到磁盘上。这个过程满足ACID持久性的特性，这意味着即使在系统出现故障时，它也将持续存在。

小白学苑

让大数据学习更简单

Delta Lake介绍