数据结构==B-树==-深圳市維司達科技有限公司

一、B 树基础概念（铺垫层）

知识点梳理

名称定义：B 树（B-tree）是多叉平衡查找树，正确名称为 “B 树”，非 “B 阶树”（“阶” 是 B 树的属性，如 m 阶 B 树）。
树型对比：
- 二叉树体系：二叉搜索树（BST）、AVL 树（绝对平衡二叉树）、红黑树（相对平衡二叉树），均为二叉结构。
- B 树：多叉结构，平衡特性体现在 “所有叶子节点在同一层”。
适用场景：哈希、二叉树等结构仅适用于内存数据处理；当数据量过大（超出内存容量）需存储在磁盘（外存）时，B 树为核心解决方案。

重点标注【重点】

B 树的核心定位：多叉 + 平衡 + 查找（兼具有序性和外存适配性）。
二叉树与 B 树的本质区别：子节点数量（二叉 vs 多叉）、应用场景（内存 vs 外存）。

难点解析【难点】

为何二叉树不适合外存数据处理？二叉树的树高随数据量增长呈O(log₂n)趋势（如 100 万条数据，树高约 20），而外存操作的核心成本是磁盘 IO（每次 IO 仅能读取一个节点），二叉树的高树高会导致大量 IO 次数，性能急剧下降。

内容扩张（补充对比与原理）

内存 vs 外存性能差异：
- 内存访问速度：纳秒级（10⁻⁹s）；
- 磁盘 IO 访问速度：毫秒级（10⁻³s），相差约 100 万倍。因此，外存操作的核心目标是减少 IO 次数，而非单纯减少计算次数。

常见树结构适用场景对比表：

树结构	核心特性	适用场景
二叉搜索树	有序，无平衡保证	少量内存数据、单次查询
AVL 树	绝对平衡，旋转次数多	少量内存数据、频繁查询
红黑树	相对平衡，旋转次数少	大量内存数据（如 Java TreeMap）
B 树	多叉平衡，树高低	外存数据处理（如数据库索引）

二、磁盘 IO 与 B 树的优势（核心价值层）

知识点梳理

磁盘 IO 慢的物理原因：磁盘是机械结构，由盘片、磁头、扇区组成，读取数据时需经历磁头寻道（找扇区）→盘片旋转（定位数据），这两个步骤耗时占比超 99%。
B 树的优势原理：B 树为 “矮胖” 结构（多叉导致树高极低），可大幅减少磁盘 IO 次数（每次 IO 读取一个 B 树节点，节点可存储多个关键字）。

重点标注【重点】

磁盘 IO 的性能瓶颈：磁头寻道 + 盘片旋转（而非数据传输）。
B 树 “矮胖” 结构的核心意义：降低树高 = 减少 IO 次数。

难点解析【难点】

如何量化 B 树的 IO 次数优势？以m 阶 B 树和二叉搜索树为例，假设存储 n=100 万条数据：

二叉搜索树（平衡时）：树高 h=log₂10⁶≈20 → IO 次数≈20 次；
m=100 阶 B 树：根据 B 树树高公式（见下文），树高 h≈3 → IO 次数≈3 次。结论：B 树的 IO 次数呈数量级下降。

内容扩张（公式与计算）

m 阶 B 树的树高公式（推导：基于 B 树性质的最小节点数）：设 m 阶 B 树的树高为 h（根节点为第 1 层），则最小总关键字数为：Nmin=1+2×(⌈m/2⌉)h−2×(⌈m/2⌉−1)简化（取⌈m/2⌉=k）：n≥1+2(k−1)(kh−2) → 树高h≤logk(2(k−1)n−1)+2。
实例计算：m=100（k=50），n=10⁶：h≤log50(2×49106−1)+2≈log50(10204)+2≈3，验证上述结论。

三、B 树的核心性质（规则核心层）

知识点梳理（m 阶 B 树，m 为树的阶数：每个节点最多有 m 个子节点）

根节点规则：
- 关键字数量：最少 1 个，最多 m-1 个；
- 子节点数量：最少 2 个，最多 m 个。
非根节点规则：
- 关键字数量：最少⌈m/2⌉−1个，最多 m-1 个；
- 子节点数量：最少⌈m/2⌉个，最多 m 个（子节点数 = 关键字数 + 1）。
关键字关系：节点内关键字按升序排列，且第 i 个关键字的左子树所有关键字 <该关键字，右子树所有关键字> 该关键字（与二叉搜索树一致）。
叶子节点规则：所有叶子节点在同一层（平衡的核心体现），且叶子节点无子女（或视为空节点）。

重点标注【重点】

子节点数与关键字数的关系：子节点数 = 关键字数 + 1（B 树的核心关联规则）。
关键字的有序性和叶子节点的同层性（B 树平衡的两大保证）。
各节点的关键字 / 子节点数范围（需熟记，为插入分裂打基础）。

难点解析【难点】

为何非根节点的关键字数下限是⌈m/2⌉−1？该下限是为了保证 B 树的平衡特性和最坏情况下的查找效率：

若下限过低（如 1 个），可能导致节点分布不均（部分节点关键字多，部分极少），破坏 “矮胖” 结构；
⌈m/2⌉−1是 “最小平衡阈值”，确保节点分裂 / 合并后仍能维持平衡，且树高始终保持 O (log_m n) 级别。

内容扩张（实例验证）

以 **m=3 阶 B 树（2-3 树）和m=4 阶 B 树（2-3-4 树）** 为例，直观理解性质：

m=3（k=2，⌈3/2⌉=2）：
- 非根节点关键字数：1~2 个（⌈3/2⌉−1=1，m-1=2）；
- 子节点数：2~3 个；
- 实例：插入 1,2,3 → 根节点关键字满（2 个），插入 4 触发分裂，中间元素 2 上移为新根，1 和 3/4 为子节点，叶子节点同层。
m=4（k=2，⌈4/2⌉=2）：
- 非根节点关键字数：1~3 个；
- 子节点数：2~4 个；
- 平衡特性：无论插入多少数据，叶子节点始终在同一层。

四、B 树的插入与分裂机制（操作核心层）

知识点梳理

插入前置步骤：
- 查找元素是否存在（存在则不插入，去重）；
- 若不存在，定位到叶子节点（插入只能在叶子节点，核心规则）。
插入过程：在叶子节点中对关键字进行插入排序（保持有序性）。
分裂触发条件：节点关键字数达到 m-1（满），再插入一个关键字时触发分裂。
分裂步骤：
- 取节点的中间关键字（位置：⌊m/2⌋或⌈m/2⌉）；
- 中间关键字上移到父节点；
- 原节点拆分为左、右两个新节点（中间关键字左侧为左节点，右侧为右节点）。
树高变化：仅当根节点分裂时，树高 + 1（普通节点分裂为横向扩展，树高不变）。

重点标注【重点】

插入的核心规则：只能插在叶子节点（区别于二叉树的插入位置）。
分裂的触发条件：关键字数 = m（原节点满 m-1，插入后为 m）。
分裂的核心步骤：中间关键字上移 + 原节点拆分。

难点解析【难点】

分裂的递归处理：若中间关键字上移后，父节点也满了（关键字数 = m-1），则父节点需继续分裂，直到根节点（根节点分裂后树高 + 1）。
中间关键字的选择：m 为奇数时，中间关键字唯一；m 为偶数时，通常取⌈m/2⌉位置的关键字（如 m=4，取第 2 个关键字）。

内容扩张（实例演示）

以m=3 阶 B 树为例，演示插入序列1,3,5,7,9的完整过程：

插入 1：根节点为 [1]（关键字数 = 1，符合规则）。
插入 3：根节点为 [1,3]（关键字数 = 2，达到 m-1=2，未分裂）。
插入 5：根节点关键字数 = 3（超出 m-1=2），触发分裂：
- 中间关键字 3 上移为新根；
- 原节点拆分为 [1]（左）、[5]（右）；
- 树结构：根 [3]，子节点 [1]、[5]（叶子节点同层）。
插入 7：定位到叶子节点 [5]，插入后为 [5,7]（关键字数 = 2，未分裂）。
插入 9：定位到叶子节点 [5,7]，插入后为 [5,7,9]（触发分裂）：
- 中间关键字 7 上移到父节点 [3]，父节点变为 [3,7]；
- 原节点拆分为 [5]（左）、[9]（右）；
- 最终树结构：根 [3,7]，子节点 [1]、[5]、[9]（叶子节点仍在同一层）。
若继续插入 11：定位到 [9]，插入后为 [9,11]，无分裂；插入 13：[9,11,13] 触发分裂，中间关键字 11 上移到父节点 [3,7]，父节点变为 [3,7,11]（触发根节点分裂），中间关键字 7 上移为新根，树高 + 1。

五、B 树的代码实现（工程落地层）

知识点梳理（会议提及思路）

节点定义：包含关键字数组、孩子节点数组、父节点引用、记录关键字数量的usedSize。
查找方法：返回自定义结果类（包含节点和下标）（找到则返回节点和关键字下标，未找到则返回父节点和 - 1）。
插入方法：
- 树为空：创建根节点，插入元素；
- 树非空：调用查找方法，判断元素是否存在，不存在则在叶子节点插入，插入后检查是否需要分裂。
分裂方法：处理节点拆分、中间关键字上移、父节点更新。

重点标注【重点】

节点数据结构设计：需同时存储关键字和子节点（多叉树的核心），且数组大小为 m（关键字数组大小 m-1，子节点数组大小 m）。
查找方法的返回值设计：用自定义类返回父节点和下标，是插入的关键前提（定位插入位置）。
插入后的分裂检查：插入后需立即判断usedSize == m，触发分裂逻辑。

难点解析【难点】

分裂的代码实现：
- 拆分原节点的关键字和子节点到左、右新节点；
- 中间关键字插入父节点后，若父节点满，需递归分裂；
- 关键字和子节点的移位操作（保持有序性）。
多阶 B 树的通用性设计：代码需支持任意 m 阶，而非固定阶数。

内容扩张（Java 代码实现：核心部分）

java

运行

import java.util.LinkedList; import java.util.Queue; /** * m阶B树（此处取m=3，可修改常量支持任意阶） * 核心重点：节点结构设计、查找逻辑、插入流程 * 核心难点：分裂的递归实现、节点拆分与关键字移位 */ public class BTree { // 定义B树的阶数（m阶：每个节点最多有m个子节点） private static final int m = 3; // 每个节点最多存储的关键字数量：m-1 private static final int MAX_KEY = m - 1; // 非根节点最少存储的关键字数量：⌈m/2⌉ - 1（m=3时为1） private static final int MIN_KEY = (m + 1) / 2 - 1; // B树节点类【重点：节点结构设计】 static class BTreeNode { int[] keys; // 关键字数组，最多存储MAX_KEY个 BTreeNode[] children;// 孩子节点数组，最多存储m个 BTreeNode parent; // 父节点引用 int usedSize; // 当前关键字数量 boolean isLeaf; // 是否为叶子节点 // 构造函数 public BTreeNode() { this.keys = new int[MAX_KEY]; this.children = new BTreeNode[m]; this.parent = null; this.usedSize = 0; this.isLeaf = true; // 初始为叶子节点 } } // 查找结果类：替代C++的pair，存储节点和下标 // 找到关键字：node为目标节点，index为关键字下标 // 未找到关键字：node为父节点，index为-1 static class SearchResult { BTreeNode node; int index; public SearchResult(BTreeNode node, int index) { this.node = node; this.index = index; } } private BTreeNode root; // B树的根节点 public BTree() { this.root = null; } /** * 查找关键字 * 核心重点：循环遍历节点内关键字，定位子节点或目标关键字 * @param key 要查找的关键字 * @return 查找结果（节点+下标） */ private SearchResult search(int key) { BTreeNode curr = root; BTreeNode parent = null; while (curr != null) { int i = 0; // 找到第一个大于等于key的关键字下标 while (i < curr.usedSize && curr.keys[i] < key) { parent = curr; i++; } // 找到关键字：返回当前节点和下标 if (i < curr.usedSize && curr.keys[i] == key) { return new SearchResult(curr, i); } // 未找到：继续遍历子节点 parent = curr; curr = curr.children[i]; } // 未找到：返回父节点和-1 return new SearchResult(parent, -1); } /** * 分裂节点：处理满节点的拆分【核心难点：递归分裂、节点拆分】 * @param node 要分裂的节点（此时节点的usedSize == MAX_KEY + 1，即关键字数超上限） */ private void split(BTreeNode node) { // 1. 创建右节点（左节点复用原节点） BTreeNode rightNode = new BTreeNode(); BTreeNode parent = node.parent; // 中间关键字的下标（m=3时，mid=1；m为偶数时可调整为⌈m/2⌉） int mid = MAX_KEY / 2; int midKey = node.keys[mid]; // 2. 拆分原节点的关键字到右节点（中间关键字右侧的关键字移到右节点） int j = 0; for (int i = mid + 1; i < node.usedSize; i++) { rightNode.keys[j] = node.keys[i]; rightNode.usedSize++; node.usedSize--; j++; } // 3. 拆分原节点的孩子节点到右节点（非叶子节点时） if (!node.isLeaf) { j = 0; for (int i = mid + 1; i < m; i++) { rightNode.children[j] = node.children[i]; if (rightNode.children[j] != null) { rightNode.children[j].parent = rightNode; } node.children[i] = null; // 原节点该位置置空 j++; } } rightNode.isLeaf = node.isLeaf; rightNode.parent = parent; // 4. 中间关键字插入父节点 if (parent == null) { // 父节点为空（根节点分裂）：创建新根节点【难点：根节点分裂处理】 BTreeNode newRoot = new BTreeNode(); newRoot.keys[0] = midKey; newRoot.usedSize = 1; newRoot.isLeaf = false; // 新根不是叶子节点 newRoot.children[0] = node; newRoot.children[1] = rightNode; node.parent = newRoot; rightNode.parent = newRoot; this.root = newRoot; // 更新根节点 } else { // 父节点非空：插入中间关键字到父节点【难点：父节点插入后递归分裂】 // 找到插入位置 int i = 0; while (i < parent.usedSize && parent.keys[i] < midKey) { i++; } // 关键字后移，腾出插入位置（保持有序性） for (int k = parent.usedSize; k > i; k--) { parent.keys[k] = parent.keys[k - 1]; } // 孩子节点后移，腾出位置 for (int k = parent.usedSize + 1; k > i + 1; k--) { parent.children[k] = parent.children[k - 1]; } // 插入关键字和右孩子节点 parent.keys[i] = midKey; parent.children[i + 1] = rightNode; parent.usedSize++; // 检查父节点是否满，满则递归分裂 if (parent.usedSize > MAX_KEY) { split(parent); } } } /** * 插入关键字 * 核心重点：叶子节点插入、插入后分裂检查 * @param key 要插入的关键字 */ public void insert(int key) { // 情况1：树为空，创建根节点 if (root == null) { root = new BTreeNode(); root.keys[0] = key; root.usedSize = 1; return; } // 情况2：树非空，先查找关键字是否存在 SearchResult result = search(key); if (result.index != -1) { // 关键字已存在，不插入 System.out.println("关键字" + key + "已存在，不插入"); return; } // 情况3：关键字不存在，定位到叶子节点插入 BTreeNode leaf = result.node; int i = 0; // 找到插入位置 while (i < leaf.usedSize && leaf.keys[i] < key) { i++; } // 关键字后移，腾出插入位置 for (int k = leaf.usedSize; k > i; k--) { leaf.keys[k] = leaf.keys[k - 1]; } // 插入关键字 leaf.keys[i] = key; leaf.usedSize++; // 检查是否需要分裂（关键字数超过上限） if (leaf.usedSize > MAX_KEY) { split(leaf); } } /** * 层序遍历打印B树（辅助调试） */ public void print() { if (root == null) { System.out.println("B树为空"); return; } Queue<BTreeNode> queue = new LinkedList<>(); queue.offer(root); while (!queue.isEmpty()) { int levelSize = queue.size(); for (int i = 0; i < levelSize; i++) { BTreeNode curr = queue.poll(); if (curr == null) { continue; } // 打印当前节点的关键字 for (int j = 0; j < curr.usedSize; j++) { System.out.print(curr.keys[j] + " "); } System.out.print("| "); // 将孩子节点加入队列 for (int j = 0; j < m; j++) { if (curr.children[j] != null) { queue.offer(curr.children[j]); } } } System.out.println(); // 换行表示下一层 } } // 测试代码 public static void main(String[] args) { BTree bTree = new BTree(); // 插入测试序列 int[] keys = {1, 3, 5, 7, 9, 11, 13}; for (int key : keys) { bTree.insert(key); } // 打印B树 System.out.println("B树层序遍历结果："); bTree.print(); } }

代码重难点标注

节点类BTreeNode：keys和children数组的大小与 m 阶强关联（keys为 m-1，children为 m），是多叉树的核心设计，需严格匹配。
查找方法search：通过循环遍历节点内关键字，定位子节点或目标关键字，返回的SearchResult是插入逻辑的关键前提。
分裂方法split：
- 中间关键字的选择（mid = MAX_KEY / 2）是拆分节点的核心；
- 根节点分裂时的新根创建是树高增长的唯一场景；
- 父节点插入后的递归分裂是处理节点满的关键难点，确保 B 树始终满足平衡特性。
插入方法insert：叶子节点的关键字移位插入是保持有序性的关键，插入后的分裂检查是维持 B 树性质的核心步骤。