当前位置：首页 > news >正文

深度拆解：从 B+ 树到 LSM-Tree，数据存储引擎的进阶与演进

news 2026/5/28 13:45:24

摘要

在分布式系统与现代数据库架构中，存储引擎（Storage Engine）的选择直接决定了系统的吞吐量与读写性能边界。从传统的 relational 数据库（如 MySQL、PostgreSQL）普遍采用的 B+ 树，到现代分布式 NoSQL 数据库（如 Bigtable、HBase、RocksDB）赖以生存的 LSM-Tree，底层数据结构演进的背后，是计算机硬件特性与不同业务场景下“读”与“写”的博弈。

一、 B+ 树（B+ Tree）：为磁盘预读与高效检索而生

B+ 树是 B 树（B-Tree）的一种变体，它是目前绝大多数关系型数据库索引机制的绝对基石。

1. 核心结构特征

非叶子节点只存储索引：不存储实际的行数据（Row Data）。这使得单个节点（通常对应一个磁盘页/Page）能够容纳更多的索引键，从而获得了极高的分支因子（Fan-out）。
叶子节点存储所有数据：所有的实际数据或行指针都完整地保存在叶子节点中。
叶子节点首尾相连：所有的叶子节点通过双向链表横向连接，构成了一个有序的链表。

2. 硬件契合点：减少磁盘 I/O

传统机械硬盘的随机寻道极其缓慢，而顺序读取相对较快。B+ 树的高分支因子使得树的高度通常保持在 3~4 层。这意味着在千万级的数据量下，定位一条特定记录最多只需要进行 3~4 次磁盘 I/O。

同时，由于叶子节点是有序双向链表，在处理BETWEEN ... AND ...的范围查询或排序（ORDER BY）时，B+ 树只需要在树中找到范围的起点，然后沿着链表顺序遍历即可，完美契合了操作系统的磁盘预读（Read-Ahead）机制。

二、 B+ 树的性能天花板：随机写下的“页分裂”

然而，B+ 树并非完美。为了维持树的平衡性与节点的有序性，B+ 树在面对高并发的大量写入（特别是主键非单调递增的随机写入）时，会遇到严重的性能瓶颈：页分裂（Page Split）。

当一个新的数据项需要插入到一个已经写满的叶子节点（Page）中时，数据库必须申请一个全新的页，并将原页中 50% 的数据移动到新页中，同时还要修改上层非叶子节点的索引指针。这个过程伴随着大量的随机磁盘 I/O与内存锁争用。

随着数据量持续暴增，B+ 树的写性能会呈现出断崖式下跌。为了打破“写瓶颈”，LSM-Tree 应运而生。

三、 LSM-Tree（Log-Structured Merge-Tree）：将随机写转化为顺序写

LSM-Tree 彻底颠覆了 B+ 树“原地更新（In-place Update）”的思路，它的核心思想是：放弃部分读性能，通过“追加写（Append-only）”将所有的随机写操作转化为顺序写。

LSM-Tree 的架构在逻辑上由内存和磁盘两部分组件共同构成：

1. 内存层：MemTable 与 WAL

WAL（Write-Ahead Log，预写日志）：当写请求到达时，首先顺序写入磁盘的 WAL 文件中，作为崩溃恢复（Crash Recovery）的保障。由于是追加写，速度接近内存级别。
MemTable（内存表）：随后，数据被插入内存中的 MemTable。MemTable 内部通常采用跳表（SkipList）或红黑树结构，确保数据在内存中保持有序。

2. 磁盘层：SSTable（Sorted String Table）

当 MemTable 达到特定阈值（如 64MB）时，它会被冻结为不动的Immutable MemTable，然后由后台线程以顺序流的方式异步刷入（Flush）磁盘，形成一个SSTable文件。
SSTable 内的数据是严格按 Key 有序排列的，且一旦写入便不可更改（Read-only）。这意味着 LSM-Tree 的修改和删除操作并不是直接修改原数据，而是插入一条带有“墓碑标记（Tombstone）”的新记录。

四、 LSM-Tree 的代价：读放大与写放大

LSM-Tree 获得了极致的写吞吐量，但代价是带来了复杂性的上升，主要体现在三大问题上：

读放大（Read Amplification）：由于同一个 Key 的最新版本可能在内存中，也可能在磁盘的多个不同层级的 SSTable 中。读取时需要由新到旧查找多个文件，导致读性能相较于 B+ 树有所下降（通常引入布隆过滤器/Bloom Filter来快速排除不包含该 Key 的文件）。
写放大（Write Amplification）：为了防止磁盘上的 SSTable 文件无限增多，LSM-Tree 在后台会持续进行Compaction（合并/压缩）操作。它将多个有序的 SSTable 文件读入内存，进行归并排序，消除重复和被删除的数据，然后再顺序写回磁盘。这个过程导致同一份数据被反复读取和写入磁盘多次，消耗了大量磁盘 I/O 带宽。

五、总结与场景选型

特性维度	B+ 树存储引擎 (如 InnoDB)	LSM-Tree 存储引擎 (如 RocksDB)
核心写操作	原地更新，存在随机 I/O、页分裂	追加写，严格顺序 I/O
写性能	中等，受限于随机 I/O 与索引维护	极高，充分释放顺序写带宽
读性能	极高，点查与范围查询稳定	较低，可能需要检索多层 SSTable
空间利用率	较差，存在页内部碎片与预留空间	高，通过 Compaction 压缩紧凑
典型应用场景	传统 OLTP 数据库、高频读低频写	时序数据库、日志系统、海量 KV 存储