- 1.为什么使用索引
- 2.索引及其优缺点
- 2.1.索引概述
- 2.2.优点
- 2.3.缺点
- 3.InnoDB 中索引的推演
- 3.1.索引之前的查找
- 3.1.1.在一个页中的查找
- 3.1.2.在很多页中查找
- 3.2.设计索引
- 3.2.1.一个简单的索引设计方案
- 3.2.2.InnoDB 中的索引方案
- 3.2.2.1.迭代1次:目录项纪录的页
- 3.2.2.2.迭代2次:多个目录项纪录的页
- 3.2.2.3.迭代3次:目录项记录页的目录页
- 3.2.2.4.B+Tree
- 3.3.常见索引概念
- 3.3.1.聚簇索引
- 3.3.2.非聚簇索引
- 3.3.3.联合索引
- 3.4.InnoDB 的 B+ 树索引的注意事项
- 3.4.1.根页面位置万年不动
- 3.4.2.内节点中目录项记录的唯一性
- 3.4.3.一个页面最少存储2条记录
- 4.MyISAM 中的索引方案
- 4.1.B+ 树索引使用存储引擎情况
- 4.2.MyISAM 索引的原理
- 4.3.MyISAM 与 InnoDB 对比
- 5.索引的代价
- 6.MySQL 数据结构选择的合理性
- 6.1.全表遍历
- 6.2.Hash 结构
- 6.3.二叉搜索树
- 6.4.AVL 树
- 6.5.B-Tree
- 6.6.B+Tree
- 6.7.R-Tree
- 6.8.小结
- 附录:算法的时间复杂度
本文笔记整理来自尚硅谷视频https://www.bilibili.com/video/BV1iq4y1u7vj?p=115,相关资料可在视频评论区进行获取。
1.为什么使用索引(1)索引是存储引擎用于快速找到数据记录的一种数据结构,就好比一本教课书的目录部分,通过目录中找到对应文章的页码,便可快速定位到需要的文章。MySQL中也是一样的道理,进行数据查找时,首先查看查询条件是否命中某条索引,符合则通过索引查找相关数据,如果不符合则需要全表扫描,即需要一条一条地查找记录,直到找到与条件符合的记录。 (2)如上图所示,数据库没有索引的情况下,数据分布在硬盘不同的位置上面,读取数据时,摆臂需要前后摆动查找数据,这样操作非常消耗时间。如果数据顺序摆放,那么也需要从 1 到 6 行按顺序读取,这样就相当于进行了 6 次 l/O 操作,依旧非常耗时。如果我们不借助任何索引结构帮助我们快速定位数据的话,我们查找 Col2 = 89 这条记录,就要逐行去查找、去比较。从 Col2 = 34开始,进行比较,发现不是,继续下一行。我们当前的表只有不到 10 行数据,但如果表很大的话,有上千万条数据,就意味着要做很多次磁盘 I/O 才能找到。现在要查找 Col2 = 89 这条记录。CPU 必须先去磁盘查找这条记录,找到之后加载到内存,再对数据进行处理。这个过程最耗时间的就是磁盘 I/O(涉及到磁盘的旋转时间(速度较快)、磁头的寻道时间(速度慢、费时))。
(3)假如给数据使用二叉树这样的数据结构进行存储,如下图所示。
(4)对字段 Col2 添加了索引,就相当于在硬盘上为 Col2 维护了一个索引的数据结构,即这个二叉搜索树。二叉搜索树的每个结点存储的是(K, V) 结构,key是 Col2, value是该 key 所在行的文件指针(地址)。比如:该二叉搜索树的根节点就是 (34, 0x07)。现在对 Col2 添加了索引,这时再去查找 Col2 = 89 这条记录的时候会先去查找该二叉搜索树(二叉树的遍历查找)。读 34 到内存,89 > 34;继续右侧数据,读 89 到内存,89 == 89;找到数据返回。找到之后就根据当前结点的 value 快速定位到要查找的记录对应的地址。我们可以发现,只需要查找两次就可以定位到记录的地址,查询速度就提高了。
(5)这就是我们为什么要建索引,目的就是为了减少磁盘 I/O 的次数,加快查询速率。
2.索引及其优缺点 2.1.索引概述(1)MySQL 官方对索引的定义为:索引 (Index) 是帮助 MySQL 高效获取数据的数据结构。 (2)索引的本质:索引是数据结构。你可以简单理解为“排好序的快速查找数据结构”,满足特定查找算法。这些数据结构以某种方式指向数据, 这样就可以在这些数据结构的基础上实现高级查找算法。
2.2.优点(1)类似大学图书馆建书目索引,提高数据检索的效率,降低数据库的I/O成本,这也是创建索引最主要的原因。 (2)通过创建唯一索引,可以保证数据库表中每一行数据的唯一性。 (3)在实现数据的参考完整性方面,可以加速表和表之间的连接。即对于有依赖关系的子表和父表联合查询时,可以提高查询速度。 (4)在使用分组和排序子句进行数据查询时,可以显著减少查询中分组和排序的时间,降低了CPU的消耗。
2.3.缺点(1)创建索引和维护索引要耗费时间,并且随着数据量的增加,所耗费的时间也会增加。 (2)索引需要占磁盘空间,除了数据表占数据空间之外,每一个索引还要占一定的物理空间, 存储在磁盘上,如果有大量的索引,索引文件就可能比数据文件更快达到最大文件尺寸。 (3)虽然索引大大提高了查询速度,同时却会降低更新表的速度。当对表中的数据进行增加、删除和修改的时候,索引也要动态地维护,这样就降低了数据的维护速度。
因此,选择使用索引时,需要综合考虑索引的优点和缺点。
提示:索引可以提高查询的速度,但是会影响插入记录的速度。这种情况下,最好的办法是先删除表中的索引,然后插入数据,插入完成后再创建索引。
3.InnoDB 中索引的推演 3.1.索引之前的查找先来看一个精确匹配的例子:
SELECT [列名列表] FROM 表名 WHERE 列名 = xxx;
3.1.1.在一个页中的查找
假设目前表中的记录比较少,所有的记录都可以被存放到一个页中,在查找记录的时候可以根据搜索条件的不同分为两种情况: ① 以主键为搜索条件 可以在页目录中使用二分法快速定位到对应的槽,然后再遍历该槽对应分组中的记录即可快速找到指定的记录。
② 以其他列作为搜索条件 因为在数据页中并没有对非主键列建立所谓的页目录,所以我们无法通过二分法快速定位相应的槽。这种情况下只能从最小记录开始依次遍历单链表中的每条记录,然后对比每条记录是不是符合搜索条件。很显然,这种查找的效率是非常低的。|
3.1.2.在很多页中查找(1)大部分情况下我们表中存放的记录都是非常多的,需要好多的数据页来存储这些记录。在很多页中查找记录的话可以分为两个步骤: ① 定位到记录所在的页。 ② 从所在的页内中查找相应的记录。
(2)在没有索引的情况下,不论是根据主键列或者其他列的值进行查找,由于我们并不能快速的定位到记录所在的页,所以只能从第一个页沿着双向链表一直往下找,在每一个页中根据我们上面的查找方式去查找指定的记录。因为要遍历所有的数据页,所以这种方式显然是超级耗时的。如果一个表有一亿条记录呢?此时索引应运而生。
3.2.设计索引(1)建一个表:
CREATE TABLE index_demo(
c1 INT,
c2 INT,
c3 CHAR(1),
PRIMARY KEY(c1)
) ROW_FORMAT = Compact;
(2)这个新建的 index_demo 表中有 2 个 INT 类型的列,1 个 CHAR(1) 类型的列,而且我们规定了 c1 列为主键,这个表使用 Compact 行格式来实际存储记录的。这里我们简化了index_demo表的行格式示意图:
我们只在示意图里展示记录的这几个部分:
(3)将记录格式示意图的其他信息项暂时去掉并把它竖起来的效果就是这样:
把一些记录放到页里的示意图就是:
我们在根据某个搜索条件查找一些记录时为什么要遍历所有的数据页呢?因为各个页中的记录并没有规律,我们并不知道我们的搜索条件匹配哪些页中的记录,所以不得不依次遍历所有的数据页。所以如果我们想快速的定位到需要查找的记录在哪些数据页中该咋办?我们可以为快速定位记录所在的数据页而建立一个目录,建这个目录必须完成下边这些事:
(1)下一个数据页中用户记录的主键值必须大于上一个页中用户记录的主键值。 假设每个数据页最多能存放3条记录(实际上一个数据页非常大,可以存放下好多记录)。之后我们向 index_demo 表插入3条记录:
INSERT INTO index_demo VALUES(1, 4, 'u'), (3, 9, 'd'), (5, 3, 'y')
那么这些记录已经按照主键值的大小串联成一个单向链表了,如图所示:
从图中可以看出来, index_demo 表中的 3 条记录都被插入到了编号为 10 的数据页中了。此时我们再来插入一条记录:
INSERT INTO index_demo VALUES(4, 4, 'a')
因为页 10 最多只能放 3 条记录,所以我们不得不再分配一个新页:
注意,新分配的数据页编号可能并不是连续的。它们只是通过维护着上一个页和下一个页的编号而建立了链表关系。另外,页 10 中用户记录最大的主键值是 5,而页 28 中有一条记录的主键值是 4,因为 5 > 4,所以这就不符合下一个数据页中用户记录的主键值必须大于上一个页中用户记录的主键值的要求,所以在插入主键值为 4 的记录的时候需要伴随着一次记录移动,也就是把主键值为 5 的记录移动到页28 中,然后再把主键值为 4 的记录插入到页 10 中,这个过程的示意图如下:
这个过程表明了在对页中的记录进行增删改操作的过程中,我们必须通过一些诸如记录移动的操作来始终保证这个状态一直成立:下一个数据页中用户记录的主键值必须大于上一个页中用户记录的主键值。这个过程我们称为页分裂。
(2)给所有的页建立一个目录项 由于数据页的编号可能是不连续的,所以在向 index_demo 表中插入许多条记录后,可能是这样的效果:
因为这些 16KB 的页在物理存储上是不连续的,所以如果想从这么多页中根据主键值快速定位某些记录所在的页,我们需要给它们做个目录,每个页对应一个目录项,每个目录项包括下边两个部分: ① 页的用户记录中最小的主键值,我们用 key 来表示。 ② 页号,我们用 page_no 表示。
所以我们为上边几个页做好的目录就像这样子:
以页 28 为例,它对应目录项 2 ,这个目录项中包含着该页的页号 28 以及该页中用户记录的最小主键值 5 。我们只需要把几个目录项在物理存储器上连续存储(比如:数组),就可以实现根据主键值快速查找某条记录的功能了。比如:查找主键值为 20 的记录,具体查找过程分两步: ① 先从目录项中根据二分法快速确定出主键值为 20 的记录在目录项 3 中(因为 12 < 20 < 209),它对应的页是页 9。 ② 再根据前边说的在页中查找记录的方式去页 9 中定位具体的记录。
至此,针对数据页做的简易目录就搞定了。这个目录有一个别名,称为索引 。
3.2.2.InnoDB 中的索引方案 3.2.2.1.迭代1次:目录项纪录的页(1)上边称为一个简易的索引方案,是因为我们为了在根据主键值进行查找时使用二分法快速定位具体的目录项而假设所有目录项都可以在物理存储器上连续存储,但是这样做有几个问题: ① InnoDB 是使用页来作为管理存储空间的基本单位,最多能保证 16KB 的连续存储空间,而随着表中记录数量的增多,需要非常大的连续的存储空间才能把所有的目录项都放下,这对记录数量非常多的表是不现实的。 ② 我们时常会对记录进行增删,假设我们把页 28 中的记录都删除了,那意味着目录项 2 也就没有存在的必要了,这就需要把目录项 2 后的目录项都向前移动一下,这样牵一发而动全身的操作效率很差。
(2)所以,我们需要一种可以灵活管理所有目录项的方式。我们发现目录项其实长得跟我们的用户记录差不多,只不过目录项中的两个列是主键和页号而已,为了和用户记录做一下区分,我们把这些用来表示目录项的记录称为目录项记录。那 InnoDB 怎么区分一条记录是普通的用户记录还是目录项记录呢?使用记录头信息里的 record_tyee 属性,它的各个取值代表的意思如下: ① 0:普通的用户记录 ② 1:目录项记录 ③ 2:最小记录 ④ 3:最大记录
(3)我们把前边使用到的目录项放到数据页中的样子就是这样:
从图中可以看出来,我们新分配了一个编号为 30 的页来专门存储目录项记录。这里再次强调目录项记录和普通的用户记录的不同点: ① 目录项记录的 record_type 值是1,而普通用户记录的 record_type 值是0。 ② 目录项记录只有主键值和页的编号两个列,而普通的用户记录的列是用户自己定义的,可能包含很多列 ,另外还有 InnoDB 自己添加的隐藏列。 ③ 了解:记录头信息里还有一个叫 min_rec_mask 的属性,只有在存储目录项记录的页中的主键值最小的目录项记录的 min_rec_mask 值为 1 ,其他别的记录的 min_rec_mask 值都是 0 。
相同点:两者用的是一样的数据页,都会为主键值生成 Page Directory (页目录),从而在按照主键值进行查找时可以使用二分法 来加快查询速度。
(4)现在以查找主键为 20 的记录为例,根据某个主键值去查找记录的步骤就可以大致拆分成下边两步: ① 先到存储目录项记录的页,也就是页 30 中通过二分法快速定位到对应目录项,因为 12 < 20 < 209 ,所以定位到对应的记录所在的页就是页 9。 ② 再到存储用户记录的页 9 中根据二分法快速定位到主键值为 20 的用户记录。
3.2.2.2.迭代2次:多个目录项纪录的页(1)虽然说目录项记录中只存储主键值和对应的页号,比用户记录需要的存储空间小多了,但是不论怎么说一个页只有 16KB 大小,能存放的目录项记录也是有限的,那如果表中的数据太多,以至于一个数据页不足以存放所有的目录项记录,如何处理呢?
(2)这里我们假设一个存储目录项记录的页最多只能存放 4 条目录项记录,所以如果此时我们再向上图中插入一条主键值为 320 的用户记录的话,那就需要分配一个新的存储目录项记录的页:
从图中可以看出,我们插入了一条主键值为 320 的用户记录之后需要两个新的数据页: ① 为存储该用户记录而新生成了页 31 。 ② 因为原先存储目录项记录的页 30 的容量已满 (我们前边假设只能存储 4 条目录项记录),所以不得不需要一个新的页 32 来存放页 31 对应的目录项。
(3)现在因为存储目录项记录的页不止一个,所以如果我们想根据主键值查找一条用户记录大致需要3个步骤,以查找主键值为 20 的记录为例: ① 确定目录项记录页。我们现在的存储目录项记录的页有两个,即页 30 和页 32 ,又因为页 30 表示的目录项的主键值的范围是 [1, 320) ,页 32 表示的目录项的主键值不小于 320 ,所以主键值为 20 的记录对应的目录项记录在页 30 中。 ② 通过目录项记录页确定用户记录真实所在的页。在一个存储目录项记录的页中通过主键值定位一条目录项记录的方式说过了。 ③ 在真实存储用户记录的页中定位到具体的记录。
3.2.2.3.迭代3次:目录项记录页的目录页(1)问题来了,在这个查询步骤的第 1 步中我们需要定位存储目录项记录的页,但是这些页是不连续的,如果我们表中的数据非常多则会产生很多存储目录项记录的页,那我们怎么根据主键值快速定位一个存储目录项记录的页呢?那就为这些存储目录项记录的页再生成一个更高级的目录,就像是一个多级目录一样,大目录里嵌套小目录,小目录里才是实际的数据,所以现在各个页的示意图就是这样子:
(2)如图,我们生成了一个存储更高级目录项的页 33 ,这个页中的两条记录分别代表页 30 和页 32,如果用户记录的主键值在 [1, 320) 之间,则到页 30 中查找更详细的目录项记录,如果主键值不小于320 的话,就到页 32 中查找更详细的目录项记录。
(3)我们可以用下边这个图来描述它:
这个数据结构,它的名称是B+ 树 。
3.2.2.4.B+Tree(1)不论是存放用户记录的数据页,还是存放目录项记录的数据页,我们都把它们存放到 B+ 树这个数据结构中了,所以我们也称这些数据页为节点。从图中可以看出,我们的实际用户记录其实都存放在 B+ 树的最底层的节点上,这些节点也被称为叶子节点,其余用来存放目录项的节点称为非叶子节点或者内节点,其中 B+ 树最上边的那个节点也称为根节点。|
(2)一个 B+ 树的节点其实可以分成好多层,规定最下边的那层,也就是存放我们用户记录的那层为第 0 层,之后依次往上加。之前我们做了一个非常极端的假设:存放用户记录的页最多存放 3 条记录 ,存放目录项记录的页最多存放 4 条记录 。其实真实环境中一个页存放的记录数量是非常大的,假设所有存放用户记录的叶子节点代表的数据页可以存放 100 条用户记录 ,所有存放目录项记录的内节点代表的数据页可以存放 1000 条目录项记录 ,那么: ① 如果 B+ 树只有 1 层,也就是只有 1 个用于存放用户记录的节点,最多能存放 100 条记录。 ② 如果 B+ 树有 2 层,最多能存放 1000 × 100 = 10,0000 条记录。 ③ 如果 B+ 树有 3 层,最多能存放 1000 × 1000 × 100 = 1,0000,0000 条记录。 ④ 如果 B+ 树有 4 层,最多能存放 1000 × 1000 × 1000 × 100=1000,0000,0000 条记录。相当多的记录!
(3)你的表里能存放 1000,0000,0000 条记录吗?所以一般情况下,我们用到的 B+ 树都不会超过 4 层,那我们通过主键值去查找某条记录最多只需要做 4 个页面内的查找(查找 3 个目录项页和 1 个用户记录页),又因为在每个页面内有所谓的 Page Directory (页目录),所以在页面内也可以通过二分法实现快速定位记录。
3.3.常见索引概念索引按照物理实现方式,索引可以分为 2 种:聚簇(聚集)索引和非聚簇(非聚集)索引。非聚簇索引也称为二级索引或者辅助索引。
3.3.1.聚簇索引(1)聚簇索引并不是一种单独的索引类型,而是一种数据存储方式(即所有的用户记录都存储在了叶子节点),也就是所谓的索引即数据,数据即索引。术语"聚簇"表示数据行和相邻的键值聚簇地存储在一起。
(2)特点 ① 使用记录主键值的大小进行记录和页的排序,这包括三个方面的含义: 1)页内的记录是按照主键的大小顺序排成一个单向链表。 2)各个存放用户记录的页也是根据页中用户记录的主键大小顺序排成一个双向链表。 3)存放目录项记录的页分为不同的层次,在同一层次中的页也是根据页中目录项记录的主键大小顺序排成一个双向链表。
② B+ 树的叶子节点存储的是完整的用户记录。所谓完整的用户记录,就是指这个记录中存储了所有列的值(包括隐藏列)。
我们把具有这两种特性的 B+ 树称为聚簇索引,所有完整的用户记录都存放在这个聚簇索引的叶子节点处。这种聚簇索引并不需要我们在MySQL 语句中显式的使用 INDEX 语句去创建,InnoDB 存储引擎会自动的为我们创建聚簇索引。
(3)优点 ① 数据访问更快,因为聚簇索引将索引和数据保存在同一个 B+ 树中,因此从聚簇索引中获取数据比非聚簇索引更快。 ② 聚簇索引对于主键的排序查找和范围查找速度非常快。 ③ 按照聚簇索引排列顺序,查询显示一定范围数据的时候,由于数据都是紧密相连,数据库不用从多个数据块中提取数据,所以节省了大量的 I/O 操作。
(4)缺点 ① 插入速度严重依赖于插入顺序,按照主键的顺序插入是最快的方式,否则将会出现页分裂,严重影响性能。因此,对于 InnoDB 表,我们一般都会定义一个自增的 ID 列为主键。 ② 更新主键的代价很高 ,因为将会导致被更新的行移动。因此,对于 InnoDB 表,我们一般定义主键为不可更新。 ③ 二级索引访问需要两次索引查找 ,第一次找到主键值,第二次根据主键值找到行数据。
(5)限制 ① 对于 MySQL 数据库目前只有 InnoDB 数据引擎支持聚簇索引,而 MylSAM 并不支持聚簇索引。 ② 由于数据物理存储排序方式只能有一种,所以每个 MySQL 的表只能有一个聚簇索引。一般情况下就是该表的主键。 ③ 如果没有定义主键,InnoDB 会选择非空的唯一索引代替。如果没有这样的索引,InnoDB 会隐式的定义一个主键来作为聚簇索引。 ④ 为了充分利用聚簇索引的聚簇的特性,所以 InnoDB 表的主键列尽量选用有序的顺序 ID,而不建议用无序的 ID,比如 UUID、MD5、HASH、字符串列作为主键无法保证数据的顺序增长。
3.3.2.非聚簇索引(1)上边介绍的聚簇索引只能在搜索条件是主键值时才能发挥作用,因为 B+ 树中的数据都是按照主键进行排序的。那如果我们想以别的列作为搜索条件该怎么办呢?肯定不能是从头到尾沿着链表依次遍历记录一遍。 答案:我们可以多建几棵 B+ 树,不同的 B+ 树中的数据采用不同的排序规则。比方说我们用 c2 列的大小作为数据页、页中记录的排序规则,再建一棵 B+ 树,效果如下图所示: (2)这个 B+ 树与上边介绍的聚簇索引有几处不同: ① 使用记录 c2 列的大小进行记录和页的排序,这包括三个方面的含义: 1)页内的记录是按照 c2 列的大小顺序排成一个单向链表。 2)各个存放用户记录的页也是根据页中记录的 c2 列大小顺序排成一个双向链表。 3)存放目录项记录的页分为不同的层次,在同一层次中的页也是根据页中目录项记录的 c2 列大小顺序排成一个双向链表。 ② B+ 树的叶子节点存储的并不是完整的用户记录,而只是 c2 列 + 主键这两个列的值。 ③ 目录项记录中不再是主键 + 页号的搭配,而变成了c2 列 + 页号的搭配。
(3)所以如果我们现在想通过 c2 列的值查找某些记录的话就可以使用我们刚刚建好的这个 B+ 树了。以查找 c2 列的值为 4 的记录为例,查找过程如下: ① 确定目录项记录页。根据根页面,也就是页 44,可以快速定位到目录项记录所在的页为页 42(因为 2 < 4 < 9)。 ② 通过目录项记录页确定用户记录真实所在的页。在页 42 中可以快速定位到实际存储用户记录的页,但是由于 c2 列并没有唯一性约束,所以 c2 列值为 4 的记录可能分布在多个数据页中,又因为 2 < 4 ≤ 4,所以确定实际存储用户记录的页在页 34 和页 35 中。 ③ 在真实存储用户记录的页中定位到具体的记录。到页 34 和页 35 中定位到具体的记录。 ④ 但是这个 B+ 树的叶子节点中的记录只存储了 c2 和 c1(也就是主键)两个列,所以我们必须再根据主键值去聚簇索引中再查找—遍完整的用户记录。
(4)回表:我们根据这个以 c2 列大小排序的 B+ 树只能确定我们要查找记录的主键值,所以如果我们想根据 c2 列的值查找到完整的用户记录的话,仍然需要到聚簇索引中再查一遍,这个过程称为回表。也就是根据 c2列的值查询一条完整的用户记录需要使用到 2 棵B+ 树!
(5)为什么我们还需要一次回表操作呢?直接把完整的用户记录放到叶子节点不 OK 吗? 回答:如果把完整的用户记录放到叶子节点确实是可以不用回表。但是太占地方了,相当于每建立一棵 B+ 树都需要把所有的用户记录再都拷贝一遍,这就有点太浪费存储空间了。
(6)因为这种按照非主键列建立的 B+ 树需要一次回表操作才可以定位到完整的用户记录,所以这种 B+ 树也被称为二级索引,英文名secondary index,或者辅助索引。由于我们使用的是 c2 列的大小作为 B+ 树的排序规则,所以我们也称这个 B+ 树是为 c2 列建立的索引。非聚簇索引的存在不影响数据在聚簇索引中的组织,所以一张表可以有多个非聚簇索引。
(7)小结:聚簇索引与非聚簇索引的原理不同,在使用上也有一些区别。 ① 聚簇索引的叶子节点存储的就是我们的数据记录,非聚簇索引的叶子节点存储的是数据位置。非聚簇索引不会影响数据表的物理存储顺序。 ② 一个表只能有一个聚簇索引,因为只能有一种排序存储的方式,但可以有多个非聚簇索引,也就是多个索引目录提供数据检索。 ③ 使用聚簇索引的时候,数据的查询效率高,但如果对数据进行插入、删除、更新等操作,效率会比非聚簇索引低。
(1)我们也可以同时以多个列的大小作为排序规则,也就是同时为多个列建立索引,比方说我们想让 B+ 树按照 c2 和 c3 列的大小进行排序,这个包含两层含义: ① 先把各个记录和页按照 c2 列进行排序。 ② 在记录的 c2 列相同的情况下,采用 c3 列进行排序。
(2)为 c2 和 c3 列建立的索引的示意图如下: 如图所示,我们需要注意以下几点: ① 每条目录项记录都由 c2、c3、页号这三个部分组成,各条记录先按照 c2 列的值进行排序,如果记录的 c2 列相同,则按照 c3 列的值进行排序。 ② B+ 树叶子节点处的用户记录由 c2、c3 和主键 c1列组成。
(3)以 c2 和 c3 列的大小为排序规则建立的 B+ 树称为联合索引,本质上也是一个二级索引。它的意思与分别为 c2 和 c3 列分别建立索引的表述是不同的,不同点如下: ① 建立联合索引只会建立如上图一样的 1 棵 B+ 树。 ② 为 c2 和 c3 列分别建立索引会分别以 c2 和 c3 列的大小为排序规则建立 2 棵 B+ 树。
3.4.InnoDB 的 B+ 树索引的注意事项 3.4.1.根页面位置万年不动(1)我们前边介绍 B+ 树索引的时候,为了大家理解上的方便,先把存储用户记录的叶子节点都画出来,然后接着画存储目录项记录的内节点,而实际上 B+ 树的形成过程是这样的: ① 每当为某个表创建一个 B+ 树索引(聚簇索引不是人为创建的,默认就有)的时候,都会为这个索引创建一个根节点页面。最开始表中没有数据的时候,每个 B+ 树索引对应的根节点中既没有用户记录也没有目录项记录。 ② 随后向表中插入用户记录时,先把用户记录存储到这个根节点中。 ③ 当根节点中的可用空间用完时继续插入记录,此时会将根节点中的所有记录复制到一个新分配的页,比如页 a 中,然后对这个新页进行页分裂的操作,得到另一个新页,比如页 b。这时新插入的记录根据键值(也就是聚簇索引中的主键值,二级索引中对应的索引列的值)的大小就会被分配到页 a 或者 b 中,而根节点便升级为存储目录项记录的页。
(2)这个过程特别注意的是:一个 B+ 树索引的根节点自诞生之日起,便不会再移动。这样只要我们对某个表建立一个索引,那么它的根节点的页号便会被记录到某个地方,然后凡是 InnoDB 存储引擎需要用到这个索引的时候,都会从那个固定的地方取出根节点的页号,从而来访问这个索引。
3.4.2.内节点中目录项记录的唯一性(1)我们知道 B+ 树索引的内节点中目录项记录的内容是索引列+页号的搭配,但是这个搭配对于二级索引来说有点儿不严谨。还拿index_demo 表为例,假设这个表中的数据是这样的:
c1c2c311‘u’31‘d’51‘y’71‘a’(2)如果二级索引中目录项记录的内容只是索引列+页号的搭配的话,那么为 c2 列建立索引后的 B+ 树应该长这样: 如果我们想新插入一行记录,其中 c1、c2、c3 的值分别是 9、1、 ‘c’,那么在修改这个为 c2 列建立的二级索引对应的 B+ 树时便碰到了个大问题:由于页 3 中存储的目录项记录是由 c2 列+页号的值构成的,页 3 中的两条目录项记录对应的 c2 列的值都是 1,而我们新插入的这条记录的 c2 列的值也是 1,那我们这条新插入的记录到底应该放到页 4 中,还是应该放到页 5 中啊?答案是:对不起,懵了。
(3)为了让新插入记录能找到自己在那个页里,我们需要保证在 B+ 树的同一层内节点的目录项记录除页号这个字段以外是唯一的。所以对于二级索引的内节点的目录项记录的内容实际上是由三个部分构成的:索引列的值、主键号、列号。也就是我们把主键值也添加到二级索引内节点中的目录项记录了,这样就能保证 B+ 树每一层节点中各条目录项记录除页号这个字段外是唯一的,所以我们为 c2 列建立二级索引后的示意图实际上应该是这样子的: (4)这样我们再插入记录 (9, 1, ‘c’) 时,由于页 3 中存储的目录项记录是由c2列+主键+页号的值构成的,可以先把新记录的 c2 列的值和页 3 中各目录项记录的 c2 列的值作比较,如果 c2 列的值相同的话,可以接着比较主键值,因为 B+ 树同一层中不同目录项记录的 c2 列+主键的值肯定是不一样的,所以最后肯定能定位唯一的一条目录项记录,在本例中最后确定新记录应该被插入到页 5 中。
一个 B+ 树只需要很少的层级就可以轻松存储数亿条记录,查询速度相当不错!这是因为 B+ 树本质上就是一个大的多层级目录,每经过一个目录时都会过滤掉许多无效的子目录,直到最后访问到存储真实数据的目录。那如果一个大的目录中只存放一个子目录是什么效果呢?那就是目录层级非常非常非常多,而且最后的那个存放真实数据的目录中只能存放一条记录。费了半天劲只能存放一条真实的用户记录?所以 InnoDB 的一个数据页至少可以存放两条记录。
4.MyISAM 中的索引方案 4.1.B+ 树索引使用存储引擎情况 索引 \ 存储引擎MyISAMInnoDBMemoryB+树支持支持支持即使多个存储引擎支持同一种类型的索引,但是他们的实现原理也是不同的。InnoDB 和 MylSAM 默认的索引是 B+ 树索引;而 Memory 默认的索引是 Hash 索引。MylSAM 使用 B+ 树作为索引结构,其叶子节点的 data 域存放的是数据记录的地址。
4.2.MyISAM 索引的原理(1)我们知道 InnoDB 中索引即数据,也就是聚簇索引的那棵 B+ 树的叶子节点中已经把所有完整的用户记录都包含了,而 MyISAM 的索引方案虽然也使用树形结构,但是却将索引和数据分开存储,可以理解为 MyISAM 中没有聚簇索引。 ① 将表中的记录按照记录的插入顺序单独存储在一个文件中,称之为数据文件。这个文件并不划分为若干个数据页,有多少记录就往这个文件中塞多少记录就可以了。由于在插入数据的时候并没有刻意按照主键大小排序,所以我们并不能在这些数据上使用二分法进行查找。 ② 使用 MyISAM 存储引擎的表会把索引信息另外存储到一个称为索引文件的另一个文件中。MyISAM 会单独为表的主键创建一个索引,只不过在索引的叶子节点中存储的不是完整的用户记录,而是主键值+数据记录地址的组合。
(2)下面是 MyISAM 索引的原理图。 这里设表一共有三列,假设我们以 Col1 为主键,上图是一个 MylSAM 表的主索引 (Primary key) 示意。可以看出 MylSAM 的索引文件仅仅保存数据记录的地址。在 MyISAM 中,主键索引和二级索引 (Secondary key) 在结构上没有任何区别,只是主键索引要求 key 是唯一的,而二级索引的 key 可以重复。如果我们在 Col2 上建立一个二级索引,则此索引的结构如下图所示:
同样也是一棵 B+ 树,data 域保存数据记录的地址。因此,MyISAM 中索引检索的算法为:首先按照 B+ 树搜索算法搜索索引,如果指定的Key 存在,则取出其 data 域的值,然后以 data 域的值为地址,读取相应数据记录。
(1)MyISAM 的索引方式都是“非聚簇”的,与 InnoDB 包含 1 个聚簇索引是不同的。小结一下两种引擎中索引的区别: ① 在 InnoDB 存储引擎中,我们只需要根据主键值对聚簇索引进行一次查找就能找到对应的记录,而在 MyISAM 中却需要进行一次回表操作,意味着 MyISAM 中建立的索引相当于全部都是二级索引 。 ② InnoDB 的数据文件本身就是索引文件,而 MyISAM 索引文件和数据文件是分离的,索引文件仅保存数据记录的地址。 ③ InnoDB 的非聚簇索引 data 域存储相应记录主键的值,而 MyISAM 索引记录的是地址 。换句话说,InnoDB 的所有非聚簇索引都引用主键作为 data 域。 ④ MyISAM 的回表操作是十分快速的,因为是拿着地址偏移量直接到文件中取数据的,反观 InnoDB 是通过获取主键之后再去聚簇索引里找记录,虽然说也不慢,但还是比不上直接用地址去访问。 ⑤ InnoDB 要求表必须有主键(MyISAM可以没有)。如果没有显式指定,则 MySQL系统会自动选择一个可以非空且唯一标识数据记录的列作为主键。如果不存在这种列,则 MySQL 自动为 InnoDB 表生成一个隐含字段作为主键,这个字段长度为 6 个字节,类型为长整型。
(2)了解不同存储引擎的索引实现方式对于正确使用和优化索引都非常有帮助。 举例 1:知道了 InnoDB 的索引实现后,就很容易明白为什么不建议使用过长的字段作为主键,因为所有二级索引都引用主键索引,过长的主键索引会令二级索引变得过大。 举例 2:用非单调的字段作为主键在 InnoDB 中不是个好主意,因为 InnoDB 数据文件本身是一棵 B+ 树,非单调的主键会造成在插入新记录时,数据文件为了维持 B+ 树的特性而频繁的分裂调整,十分低效,而使用自增字段作为主键则是一个很好的选择。
索引是个好东西,但可不能乱建,它在空间和时间上都会有消耗: (1)空间上的代价 每建立一个索引都要为它建立一棵 B+ 树,每一棵 B+ 树的每一个节点都是一个数据页,一个页默认会占用 16KB 的存储空间,一棵很大的 B+ 树由许多数据页组成,那就是很大的一片存储空间。
(2)时间上的代价 每次对表中的数据进行增、删、改操作时,都需要去修改各个 B+ 树索引。而且我们讲过,B+ 树每层节点都是按照索引列的值从小到大的顺序排序,而组成了双向链表。不论是叶子节点中的记录,还是内节点中的记录(也就是不论是用户记录还是目录项记录)都是按照索引列的值从小到大的顺序而形成了一个单向链表。而增、删、改操作可能会对节点和记录的排序造成破坏,所以存储引擎需要额外的时间进行一些 记录移位、页面分裂、页面回收等操作来维护好节点和记录的排序。如果我们建了许多索引,每个索引对应的 B+ 树都要进行相关的维护操作,会给性能拖后腿。
一个表上索引建的越多,所占用存储空间就越多,在增删改记录的时候性能就越差。为了能建立又好又少的索引,要了解这些索引在哪些条件下起作用。
6.MySQL 数据结构选择的合理性(1)从 MySQL的角度讲,不得不考虑一个现实问题就是磁盘 I/O。如果我们能让索引的数据结构尽量减少硬盘的 I/O 操作,所消耗的时间也就越小。可以说,磁盘的 I/O 操作次数对索引的使用效率至关重要。 (2)查找都是索引操作,一般来说索引非常大,尤其是关系型数据库,当数据量比较大的时候索引的大小有可能几个 G 甚至更多,为了减少索引在内存的占用,数据库索引是存储在外部磁盘上的。当我们利用索引查询的时候,不可能把整个索引全部加载到内存,只能逐一加载,那么 MySQL 衡量查询效率的标准就是磁盘 I/O 次数。
6.1.全表遍历全表遍历就是一个全表扫描的过程,就是根据双向链表把磁盘上的数据页加载到缓存页里去,然后在缓存页内部查找那条数据。当数据量大的时候,全表遍历性能非常低,时间特别长,应该尽量避免全表遍历。
6.2.Hash 结构(1)Hash 本身是一个函数,又被称为散列函数,它可以帮助我们大幅提升检索数据的效率。Hash 算法是通过某种确定性的算法(比如MD5、SHA1、SHA2、SHA3)将输入转变为输出。相同的输入永远可以得到相同的输出,假设输入内容有微小偏差,在输出中通常会有不同的结果。
举例:如果你想要验证两个文件是否相同,那么你不需要把两份文件直接拿来比对,只需要让对方把 Hash 函数计算得到的结果告诉你即可,然后在本地同样对文件进行 Hash 函数的运算,最后通过比较这两个 Hash 函数的结果是否相同,就可以知道这两个文件是否相同。
(2)加速查找速度的数据结构,常见的有两类: ① 树,例如平衡二叉搜索树,查询/插入/修改/删除的平均时间复杂度都是 O(log2n); ② 哈希。例如 HashMap,查询/插入/修改/删除的平均时间复杂度都是 O(1); (3)采用 Hash 进行检索效率非常高,基本上一次检索就可以找到数据,而 B+ 树需要自顶向下依次查找,多次访问节点才能找到数据,中间需要多次 I/O 操作,从效率来说 Hash 比 B+ 树更快。在哈希的方式下,一个元素 k 处于 h(k) 中,即利用哈希函数 h,根据关键字 k 计算出槽的位置。函数 h 将关键字域映射到哈希表 T[o…m - 1] 的槽位上。
(4)上图中哈希函数 h 有可能将两个不同的关键字映射到相同的位置,这叫做碰撞/冲突 ,在数据库中一般采用链接法来解决。在链接法中,将散列到同一槽位的元素放在一个链表中,如下图所示:
(5)实验:体会数组和 hash 表的查找方面的效率区别:
// 时间复杂度为 O(n)
@Test
public void test1() {
int[] arr = new int[100000];
for (int i = 0; i
关注
打赏
最近更新
- 深拷贝和浅拷贝的区别(重点)
- 【Vue】走进Vue框架世界
- 【云服务器】项目部署—搭建网站—vue电商后台管理系统
- 【React介绍】 一文带你深入React
- 【React】React组件实例的三大属性之state,props,refs(你学废了吗)
- 【脚手架VueCLI】从零开始,创建一个VUE项目
- 【React】深入理解React组件生命周期----图文详解(含代码)
- 【React】DOM的Diffing算法是什么?以及DOM中key的作用----经典面试题
- 【React】1_使用React脚手架创建项目步骤--------详解(含项目结构说明)
- 【React】2_如何使用react脚手架写一个简单的页面?