回答
正如图书的目录用于检索,数据库索引是为了提高数据查询效率。
MySQL 的默认存储引擎是 InnoDB,它支持两种索引结构:B+ 树索引和 HASH 索引。
在 InnoDB 中, B+ 树作为默认的索引结构。
- 数据结构上,B+ 树是二叉树的升级版,它是一颗多路平衡查找树。
- 数据存储上,B+ 树非叶子节点只存放键,不存放值;叶子节点同时存放键和值。
- B+ 树叶子节点间通过链表相连。
- 相较于 B 树,B+ 树由于只有叶子节点存储数据,其他节点仅保存索引键和指针,那么相同磁盘块大小下,B+ 树可以存储更多的节点数据,树的高度也就降低了,对应查询效率就快。
- 由于 B+ 树所有数据都存放在叶子节点,且它是一颗自平衡树,故其数据的整体查询会更稳定,接近于二分查找。
扩展
B+树索引
B+ 树是多路平衡查找树,也就是树的每个节点有多个子节点,子节点之间的大小保证从左到右递增,并且各个子树间高度差不超过1,它是 B 树的升级版。
在 MySQL 中,索引是在存储引擎层实现,不同的存储引擎中相同类型的索引底层实现也可能不同。在InnoDB 引擎中, B+ 树索引的非叶子节点仅存储键值,而叶子节点存储键值和数据。并且叶子节点间使用双向指针连接,形成一个双向有序链表。
Hash 索引
哈希表是一种以键-值(key-value)存储数据的结构,当输入键(key),就可以找到对应的值(value)。哈希的底层实现是将值放在数组里,通过哈希函数把 key 换算成一个确定位置,然后把 value 放在数组的这个位置。
对于哈希冲突,即多个 key 值经过哈希函数换算出现同一个值的情况,MySQL 采用拉链表来解决
对比
- Hash 索引在等值查询上效率比 B+ 树索引高
- B+ 树支持范围查询,Hash 索引不能
- B+ 树索引支持 order by 排序,Hash 索引不能
- B+ 树支持最左前缀原则(联合索引的最左 N 个字段或字符串索引的最左 M 个字符),Hash 索引不能
- 在索引维护场景,B+ 树索引(插入、更新和删除数据可能导致页分裂或页合并)效率不及 Hash 索引
- 相比二叉树,B+ 树是多叉树,对磁盘访问模式适配更优(表数据存储在磁盘,相同磁盘数据块大小存储数据,B+ 树层数更低,搜索查找时可大大减少磁盘 IO 开销)
总体来看, B+ 索引在等值查询性能上低于 Hash 索引,前者的时间复杂度为 O(log(N)),而后者的时间复杂度为 O(1)。但其支持范围查询、排序、联合索引等丰富场景以及保证更为稳定的查询性能,是一个合适的索引结构。在 InnoDB 引擎中,B+ 树索引作为默认的索引结构。