您当前的位置: 首页 >  sql

星许辰

暂无认证

  • 0浏览

    0关注

    466博文

    0收益

  • 0浏览

    0点赞

    0打赏

    0留言

私信
关注
热门博文

MySQL高级篇知识点——索引优化与查询优化

星许辰 发布时间:2022-09-03 17:44:27 ,浏览量:0

目录
  • 1.数据准备
    • 1.1.建库建表
    • 1.2.创建相关函数
    • 1.3.创建存储过程
    • 1.4.调用存储过程
    • 1.5.删除某表上的索引
  • 2.索引失效案例
    • 2.1.全值匹配
    • 2.2.最佳左前缀匹配原则
    • 2.3.主键插入顺序
    • 2.4.计算、函数、类型转换(自动或手动)导致索引失效
    • 2.5 类型转换导致索引失效
    • 2.6.范围条件右边的列索引失效
    • 2.7.不等于(!= 或者)索引失效
    • 2.8.is null可以使用索引,is not null无法使用索引
    • 2.9.like 以通配符 % 开头索引失效
    • 2.10.OR 前后存在非索引的列,索引失效
    • 2.11.数据库和表的字符集统一使用utf8mb4
    • 2.12.练习
  • 3.关联查询优化
    • 3.1.数据准备
    • 3.2.采用左外连接
    • 3.3.采用内连接
    • 3.4.join 语句原理
      • 3.4.1.驱动表和驱动表
      • 3.4.2.Simple Nested-Loop Join(简单嵌套循环连接)
      • 3.4.3.lndex Nested-Loop Join(索引嵌套循环连接)
      • 3.4.4.Block Nested-Loop Join(块嵌套循环连接)
      • 3.4.5.join 小结
      • 3.4.6.Hash Join
  • 4.子查询优化
  • 5.排序优化
    • 5.1.问题引入
    • 5.2.优化建议
    • 5.3.测试
    • 5.4.案例实战
    • 5.5.filesort 算法:双路排序和单路排序
      • 5.5.1.双路排序 (慢)
      • 5.5.2.单路排序 (快)
      • 5.5.3.结论及引申出的问题
      • 5.5.4.优化策略
  • 6.GROUP BY 优化
  • 7.分页查询优化
  • 8.优先考虑覆盖索引
    • 8.1.什么是覆盖索引?
    • 8.2.覆盖索引的优缺点
    • 8.3.案例
  • 9.如何给字符串添加索引
    • 9.1.前缀索引
    • 9.2.前缀索引对覆盖索引的影响
  • 10.索引下推
    • 10.1.什么是索引下推?
    • 10.2.索引下推的开启与关闭
    • 10.3.ICP 的使用条件
    • 10.4.案例
    • 10.5.开启/关闭索引下推的性能对比
      • 10.5.1.准备数据
      • 10.5.2.性能对比
  • 11.普通索引 vs 唯一索引
    • 11.1.查询过程
    • 11.2.更新过程
    • 11.3. change buffer的使用场景
  • 12.其它查询优化策略
    • 12.1.EXISTS 和 IN 的区分
    • 12.2.COUNT(*) 与 COUNT(具体字段)效率
    • 12.3.关于 SELECT(*)
    • 12.4.LIMIT 1 对优化的影响
    • 12.5.多使用 COMMIT
  • 13.淘宝数据库的主键是如何设计的?
    • 13.1 自增 ID 的问题
    • 13.2.业务字段做主键
      • 13.2.1.选择卡号 (cardno)
      • 13.2.2.选择会员电话或身份证号
    • 13.3.淘宝的主键设计
    • 13.4.推荐的主键设计
      • 13.4.1.非核心业务
      • 13.4.2.核心业务

本文笔记整理来自尚硅谷视频https://www.bilibili.com/video/BV1iq4y1u7vj?p=141,相关资料可在视频评论区进行获取。

(1)都有哪些维度可以进行数据库调优?简言之: ① 索引失效、没有充分利用到索引——索引建立。 ② 关联查询太多 JOIN(设计缺陷或不得已的需求)——SQL 优化。 ③ 服务器调优及各个参数设置(缓冲、线程数等)——调整 my.cnf。 ④ 数据过多——分库分表。

(2)关于数据库调优的知识点非常分散。不同的 DBMS,不同的公司,不同的职位,不同的项目遇到的问题都不尽相同。这里分为三个章节进行细致讲解。虽然 SQL 查询优化的技术有很多,但是大方向上完全可以分成物理查询优化和逻辑查询优化两大块。 ① 物理查询优化是通过索引和表连接方式等技术来进行优化,这里重点需要掌握索引的使用。 ② 逻辑查询优化就是通过 SQL 等价变换提升查询效率,直白一点就是说,换一种查询写法执行效率可能更高。

1.数据准备

学员表插入 50万条数据, 班级表插入 1万条数据。

1.1.建库建表
# 建库
CREATE DATABASE atguigudb2;

USE atguigudb2;

# 建表
CREATE TABLE `class` (
 `id` INT(11) NOT NULL AUTO_INCREMENT,
 `className` VARCHAR(30) DEFAULT NULL,
 `address` VARCHAR(40) DEFAULT NULL,
 `monitor` INT NULL ,
 PRIMARY KEY (`id`)
) ENGINE=INNODB AUTO_INCREMENT=1 DEFAULT CHARSET=utf8;
 
CREATE TABLE `student` (
 `id` INT(11) NOT NULL AUTO_INCREMENT,
 `stuno` INT NOT NULL ,
 `name` VARCHAR(20) DEFAULT NULL,
 `age` INT(3) DEFAULT NULL,
 `classId` INT(11) DEFAULT NULL,
 PRIMARY KEY (`id`)
 # CONSTRAINT `fk_class_id` FOREIGN KEY (`classId`) REFERENCES `t_class` (`id`)
) ENGINE=INNODB AUTO_INCREMENT=1 DEFAULT CHARSET=utf8;
1.2.创建相关函数
# 命令开启,允许创建函数设置
SET GLOBAL log_bin_trust_function_creators=1; 

# 随机产生字符串
DELIMITER //
CREATE FUNCTION rand_string(n INT) RETURNS VARCHAR(255)
BEGIN    
DECLARE chars_str VARCHAR(100) DEFAULT 'abcdefghijklmnopqrstuvwxyzABCDEFJHIJKLMNOPQRSTUVWXYZ';
DECLARE return_str VARCHAR(255) DEFAULT '';
DECLARE i INT DEFAULT 0;
WHILE i 20 AND student.name = 'abc' ; 

在这里插入图片描述 在这里插入图片描述 通过上面 EXPLAIN 的执行计划可知,索引 idx_age_classId_name 被使用了,但是没有完全使用!key_len = 10 就可以说明这一点,索引 idx_age_classId_name 上的三个字段 (age,classId,NAME) 中,只有 age 和 classId 被使用了(其长度均为 5,故 key_len = 5 + 5 = 10),其原因就在于范围条件右边的列索引失效,即 student.classId>20 是一个范围条件,其右边的索引列 NAME 失效了。

此时可能有人会问:如果将 SQL 语句中的 student.classId > 20 与 student.name = ‘abc’ 颠倒顺序,这样范围条件右边就没有索引列了,这样是不是就可以完全使用上索引 idx_age_classId_name 了? 答案是否定的,这样依然不能完全使用上索引 idx_age_classId_name,并且 key_len 仍然为 10。其原因在优化器会根据已有索引来调整查询条件的顺序,以索引 idx_age_classId_name 为例,其索引列的顺序依次为(age,classId,NAME),如果查询条件中正好出现了这 3 个字段,那么优化器会自动调整它们之间的顺序,使其保持与索引列的顺序一致,以便可以使用上索引。所以单纯地调整 student.classId > 20 与 student.name = ‘abc’ 的顺序是没有用的。 如果想要完全使用使用上索引,可以从以下两个方面进行改进: ① 重新创建索引 idx_age_name_classId,将需要进行范围查询的索引列放到最后; ② 修改 SQL 语句,只对索引中的最后一个索引列进行范围查询,但是该方法限制性太大;

(3)注意事项: ① 创建的联合索引中,务必把范围涉及到的字段写在最后; ② 应用开发中应将查询条件(例如:金额查询,日期查询往往都是范围查询)放置 where 语句的最后。

2.7.不等于(!= 或者)索引失效
CREATE INDEX idx_name ON student(NAME);

EXPLAIN SELECT SQL_NO_CACHE * FROM student WHERE student.name  'abc' ;

EXPLAIN SELECT SQL_NO_CACHE * FROM student WHERE student.name != 'abc' ;

在这里插入图片描述

2.8.is null可以使用索引,is not null无法使用索引
EXPLAIN SELECT SQL_NO_CACHE * FROM student WHERE age IS NULL; 

EXPLAIN SELECT SQL_NO_CACHE * FROM student WHERE age IS NOT NULL;

在这里插入图片描述 在这里插入图片描述

结论:最好在设计数据表的时候就将字段设置为 NOT NULL 约束,比如可以将 INT 类型的字段,默认值设置为 0。 拓展:同理,在查询中使用 not like 也无法使用索引,只能用全表扫描。

2.9.like 以通配符 % 开头索引失效

在使用 LIKE 关键字进行查询的查询语句中,如果匹配字符串的第一个字符为“%”,索引就不会起作用。只有“%"不在第一个位置,索引才会起作用。

EXPLAIN SELECT SQL_NO_CACHE * FROM student WHERE NAME LIKE 'ab%'; 

EXPLAIN SELECT SQL_NO_CACHE * FROM student WHERE NAME LIKE '%ab%';

在这里插入图片描述 在这里插入图片描述

拓展:Alibaba《Java开发手册》 【强制】页面搜索严禁左模糊或者全模糊,如果需要请走搜索引擎来解决。

2.10.OR 前后存在非索引的列,索引失效

在 WHERE 子句中,如果在 OR 前的条件列进行了索引,而在 OR 后的条件列没有进行索引,那么索引会失效。也就是说,OR前后的两个条件中的列都是索引时,查询中才使用索引。

SHOW INDEX FROM student;
CALL proc_drop_index('atguigudb2','student');

# 只有索引 idx_age 
CREATE INDEX idx_age ON student(age);
EXPLAIN SELECT SQL_NO_CACHE * FROM student WHERE age = 10 OR classid = 100;

# 有索引 idx_age 和 idx_cid 
CREATE INDEX idx_cid ON student(classid);
EXPLAIN SELECT SQL_NO_CACHE * FROM student WHERE age = 10 OR classid = 100;

在这里插入图片描述 在这里插入图片描述

2.11.数据库和表的字符集统一使用utf8mb4

统一使用 utf8mb4(5.5.3版本以上支持),兼容性更好,统一字符集可以避免由于字符集转换产生的乱码。不同的字符集进行比较前需要进行转换会造成索引失效。

2.12.练习

假设存在联合索引 index(a, b, c),索引列依次为 a, b, c。 在这里插入图片描述

一般性建议: ① 对于单列索引,尽量选择针对当前 query 过滤性更好的索引; ② 在选择组合索引的时候,当前 query 中过滤性最好的字段在索引字段顺序中,位置越靠前越好。 ③ 在选择组合索引的时候,尽量选择能够包含当前 query 中的 where 子句中更多字段的索引。 ④ 在选择组合索引的时候,如果某个字段可能出现范围查询时,尽量把这个字段放在索引次序的最后面。

总之,书写SQL语句时,尽量避免造成索引失效的情况。

3.关联查询优化 3.1.数据准备
use atguigudb2;

# 分类表
CREATE TABLE IF NOT EXISTS `type` (
`id` INT(10) UNSIGNED NOT NULL AUTO_INCREMENT,
`card` INT(10) UNSIGNED NOT NULL,
PRIMARY KEY (`id`)
);

# 图书表
CREATE TABLE IF NOT EXISTS `book` (
`bookid` INT(10) UNSIGNED NOT NULL AUTO_INCREMENT,
`card` INT(10) UNSIGNED NOT NULL,
PRIMARY KEY (`bookid`)
);

# 向分类表中添加 20 条记录
INSERT INTO TYPE(card) VALUES(FLOOR(1 + (RAND() * 20)));
INSERT INTO TYPE(card) VALUES(FLOOR(1 + (RAND() * 20)));
INSERT INTO TYPE(card) VALUES(FLOOR(1 + (RAND() * 20)));
INSERT INTO TYPE(card) VALUES(FLOOR(1 + (RAND() * 20)));
INSERT INTO TYPE(card) VALUES(FLOOR(1 + (RAND() * 20)));
INSERT INTO TYPE(card) VALUES(FLOOR(1 + (RAND() * 20)));
INSERT INTO TYPE(card) VALUES(FLOOR(1 + (RAND() * 20)));
INSERT INTO TYPE(card) VALUES(FLOOR(1 + (RAND() * 20)));
INSERT INTO TYPE(card) VALUES(FLOOR(1 + (RAND() * 20)));
INSERT INTO TYPE(card) VALUES(FLOOR(1 + (RAND() * 20)));
INSERT INTO TYPE(card) VALUES(FLOOR(1 + (RAND() * 20)));
INSERT INTO TYPE(card) VALUES(FLOOR(1 + (RAND() * 20)));
INSERT INTO TYPE(card) VALUES(FLOOR(1 + (RAND() * 20)));
INSERT INTO TYPE(card) VALUES(FLOOR(1 + (RAND() * 20)));
INSERT INTO TYPE(card) VALUES(FLOOR(1 + (RAND() * 20)));
INSERT INTO TYPE(card) VALUES(FLOOR(1 + (RAND() * 20)));
INSERT INTO TYPE(card) VALUES(FLOOR(1 + (RAND() * 20)));
INSERT INTO TYPE(card) VALUES(FLOOR(1 + (RAND() * 20)));
INSERT INTO TYPE(card) VALUES(FLOOR(1 + (RAND() * 20)));
INSERT INTO TYPE(card) VALUES(FLOOR(1 + (RAND() * 20)));

# 向图书表中添加 20 条记录
INSERT INTO book(card) VALUES(FLOOR(1 + (RAND() * 20)));
INSERT INTO book(card) VALUES(FLOOR(1 + (RAND() * 20)));
INSERT INTO book(card) VALUES(FLOOR(1 + (RAND() * 20)));
INSERT INTO book(card) VALUES(FLOOR(1 + (RAND() * 20)));
INSERT INTO book(card) VALUES(FLOOR(1 + (RAND() * 20)));
INSERT INTO book(card) VALUES(FLOOR(1 + (RAND() * 20)));
INSERT INTO book(card) VALUES(FLOOR(1 + (RAND() * 20)));
INSERT INTO book(card) VALUES(FLOOR(1 + (RAND() * 20)));
INSERT INTO book(card) VALUES(FLOOR(1 + (RAND() * 20)));
INSERT INTO book(card) VALUES(FLOOR(1 + (RAND() * 20)));
INSERT INTO book(card) VALUES(FLOOR(1 + (RAND() * 20)));
INSERT INTO book(card) VALUES(FLOOR(1 + (RAND() * 20)));
INSERT INTO book(card) VALUES(FLOOR(1 + (RAND() * 20)));
INSERT INTO book(card) VALUES(FLOOR(1 + (RAND() * 20)));
INSERT INTO book(card) VALUES(FLOOR(1 + (RAND() * 20)));
INSERT INTO book(card) VALUES(FLOOR(1 + (RAND() * 20)));
INSERT INTO book(card) VALUES(FLOOR(1 + (RAND() * 20)));
INSERT INTO book(card) VALUES(FLOOR(1 + (RAND() * 20)));
INSERT INTO book(card) VALUES(FLOOR(1 + (RAND() * 20)));
INSERT INTO book(card) VALUES(FLOOR(1 + (RAND() * 20)));
3.2.采用左外连接

(1)type 表和 book 表的字段 card 上均没有索引。

# type 表为驱动表,book 表为被驱动表
EXPLAIN SELECT SQL_NO_CACHE * FROM `type` LEFT JOIN book ON type.card = book.card;

在这里插入图片描述

(2)为被驱动表 book 中的字段 card 添加索引。

CREATE INDEX Y ON book(card);

EXPLAIN SELECT SQL_NO_CACHE * FROM `type` LEFT JOIN book ON type.card = book.card;

在这里插入图片描述

(3)为驱动表 type 中的字段 card 也添加索引。

CREATE INDEX X ON `type`(card);

EXPLAIN SELECT SQL_NO_CACHE * FROM `type` LEFT JOIN book ON type.card = book.card;

在这里插入图片描述

(4)删除被驱动表 book 中的字段 card 上的索引。

DROP INDEX Y ON book;

EXPLAIN SELECT SQL_NO_CACHE * FROM `type` LEFT JOIN book ON type.card = book.card;

在这里插入图片描述

3.3.采用内连接

(1)删除驱动表 type 中的字段 card 上的索引,这样两张表的 card 字段上都没有索引。

DROP INDEX X ON `type`;

# 内连接
EXPLAIN SELECT SQL_NO_CACHE * FROM `type` INNER JOIN book ON type.card = book.card;

在这里插入图片描述

(2)为被驱动表 book 中的字段 card 添加索引。

CREATE INDEX Y ON book(card);

EXPLAIN SELECT SQL_NO_CACHE * FROM `type` INNER JOIN book ON type.card = book.card;

在这里插入图片描述

(3)为驱动表 type 中的字段 card 也添加索引。

CREATE INDEX X ON `type`(card);

EXPLAIN SELECT SQL_NO_CACHE * FROM `type` INNER JOIN book ON type.card = book.card;

在这里插入图片描述

对于内连接来说,查询优化器可以决定谁作为驱动表,谁作为被驱动表出现的

(4)删除被驱动表 book 中的字段 card 上的索引。

DROP INDEX Y ON book;

EXPLAIN SELECT SQL_NO_CACHE * FROM `type` INNER JOIN book ON type.card = book.card;

在这里插入图片描述

结论:对于内连接来讲,如果表的连接条件中只能有一个字段有索引,则有索引的字段所在的表会被作为被驱动表出现。之前 book 表为被驱动表,但是将其字段 card 上的索引删除之后,那么连接条件中就只有 type 表上的 card 字段上有索引,此时,type 会从原本的驱动表变为被驱动表,其目的就是为了更加快速地进行内连接查询。

(5)重新为驱动表 type 中的字段 card 添加索引,此时可以看到 book 表又变回了被驱动表。

CREATE INDEX Y ON book(card);

EXPLAIN SELECT SQL_NO_CACHE * FROM `type` INNER JOIN book ON type.card = book.card;

在这里插入图片描述

此时向驱动表(即 type 表)中添加 20 条数据,那么 type 表中一共就有 40 条数据了,而 book 表中还是只有 20 条数据。

INSERT INTO `type`(card) VALUES(FLOOR(1 + (RAND() * 20)));
INSERT INTO `type`(card) VALUES(FLOOR(1 + (RAND() * 20)));
INSERT INTO `type`(card) VALUES(FLOOR(1 + (RAND() * 20)));
INSERT INTO `type`(card) VALUES(FLOOR(1 + (RAND() * 20)));
INSERT INTO `type`(card) VALUES(FLOOR(1 + (RAND() * 20)));
INSERT INTO `type`(card) VALUES(FLOOR(1 + (RAND() * 20)));
INSERT INTO `type`(card) VALUES(FLOOR(1 + (RAND() * 20)));
INSERT INTO `type`(card) VALUES(FLOOR(1 + (RAND() * 20)));
INSERT INTO `type`(card) VALUES(FLOOR(1 + (RAND() * 20)));
INSERT INTO `type`(card) VALUES(FLOOR(1 + (RAND() * 20)));
INSERT INTO `type`(card) VALUES(FLOOR(1 + (RAND() * 20)));
INSERT INTO `type`(card) VALUES(FLOOR(1 + (RAND() * 20)));
INSERT INTO `type`(card) VALUES(FLOOR(1 + (RAND() * 20)));
INSERT INTO `type`(card) VALUES(FLOOR(1 + (RAND() * 20)));
INSERT INTO `type`(card) VALUES(FLOOR(1 + (RAND() * 20)));
INSERT INTO `type`(card) VALUES(FLOOR(1 + (RAND() * 20)));
INSERT INTO `type`(card) VALUES(FLOOR(1 + (RAND() * 20)));
INSERT INTO `type`(card) VALUES(FLOOR(1 + (RAND() * 20)));
INSERT INTO `type`(card) VALUES(FLOOR(1 + (RAND() * 20)));
INSERT INTO `type`(card) VALUES(FLOOR(1 + (RAND() * 20)));

再次执行下面的 SQL 语句:

EXPLAIN SELECT SQL_NO_CACHE * FROM `type` INNER JOIN book ON type.card = book.card;

在这里插入图片描述 此时可以发现:数据量较少的被驱动表 book 变为了驱动表,而数据量较多的驱动表 type 变为了驱动表!。 结论:对于内连接来说,在两个表的连接条件都存在索引的情况下,会选择小表作为驱动表,即“小表驱动大表”。特别需要注意的是,在决定哪个表做驱动表的时候,应该是两个表按照各自的条件过滤,过滤完成之后,计算参与 join 的各个字段的总数据量,数据量小的那个表,就是“小表”,应该作为驱动表。

3.4.join 语句原理

join 方式连接多个表,本质就是各个表之间数据的循环匹配。MySQL 5.5 版本之前,MySQL 只支持一种表间关联方式,就是嵌套循环 (Nested Loop Join)。如果关联表的数据量很大,则 join 关联的执行时间会非常长。在 MySQL 5.5 以后的版本中,MySQL 通过引入BNLJ 算法来优化嵌套执行。

3.4.1.驱动表和驱动表

驱动表就是主表,被驱动表就是从表、非驱动表。 (1)对于内连接来说

SELECT * FROM A JOIN B ON ...

A 一定是驱动表吗?不一定,优化器会根据你查询语句做优化,决定先查哪张表。先查询的那张表就是驱动表,反之就是被驱动表。通过explain 关键字可以查看。

(2)对于外连接来说

SELECT * FROM A LEFT JOIN B ON ...
# 或
SELECT * FROM B RIGHT JOIN A ON ...

通常,大家会认为 A 就是驱动表,B 就是被驱动表。但也未必。测试如下:

CREATE TABLE a(f1 INT, f2 INT, INDEX(f1))ENGINE=INNODB;
CREATE TABLE b(f1 INT, f2 INT)ENGINE=INNODB;

INSERT INTO a VALUES(1,1),(2,2),(3,3),(4,4),(5,5),(6,6);
INSERT INTO b VALUES(3,3),(4,4),(5,5),(6,6),(7,7),(8,8);

# 测试 1
EXPLAIN SELECT * FROM a LEFT JOIN b ON(a.f1=b.f1) WHERE(a.f2=b.f2);
# 测试 2
EXPLAIN SELECT * FROM a LEFT JOIN b ON(a.f1=b.f1) AND(a.f2=b.f2);

在这里插入图片描述 在这里插入图片描述

3.4.2.Simple Nested-Loop Join(简单嵌套循环连接)

算法相当简单,从表 A 中取出一条数据 1,遍历表 B,将匹配到的数据放到 result…以此类推,驱动表 A 中的每一条记录与被驱动表 B 的记录进行判断: 在这里插入图片描述 可以看到这种方式效率是非常低的,以上述表 A 数据 100 条,表 B 数据 1000 条计算(这里指过滤之后的),则 A * B = 10 万次。开销统计如下(下表中的 A 和 B 分别代表数据条数,即 100 和 1000): 在这里插入图片描述

通过上表的内表扫描次数和读取记录数可知,A 的值越小越好!

3.4.3.lndex Nested-Loop Join(索引嵌套循环连接)

Index Nested-Loop Join 优化的思路主要是为了减少内层表数据的匹配次数,所以要求被驱动表上必须有索引才行。通过外层表匹配条件直接与内层表索引进行匹配,避免和内层表的每条记录去进行比较,这样极大的减少了对内层表的匹配次数。

在这里插入图片描述

驱动表中的每条记录通过被驱动表的索引进行访问,因为索引查询的成本是比较固定的,故 MySQL 优化器都倾向于使用记录数少的表作为驱动表(外表),开销统计如下。 在这里插入图片描述

如果被驱动表加索引,效率是非常高的,但如果索引不是主键索引,所以还得进行一次回表查询。因此相比之下,被驱动表的索引是主键索引,效率会更高。

3.4.4.Block Nested-Loop Join(块嵌套循环连接)

(1)如果存在索引,那么会使用 index 的方式进行 join,如果 join 的列没有索引,被驱动表要扫描的次数太多了。每次访问被驱动表,其表中的记录都会被加载到内存中,然后再从驱动表中取一条与其匹配,匹配结束后清除内存,然后再从驱动表中加载一条记录,然后把被驱动表的记录在加载到内存匹配,这样大大增加了 I/O 的次数。为了减少被驱动表的 I/O 次数,就出现了 Block Nested-Loop Join 的方式。

(2)不再是逐条获取驱动表的数据,而是一块一块的获取,引入了 join buffer 缓冲区,将驱动表 join 相关的部分数据列(大小受 join buffer 的限制)缓存到 join buffer 中,然后全表扫描被驱动表,被驱动表的每一条记录一次性和 join buffer 中的所有驱动表记录进行匹配(内存中操作),将简单嵌套循环中的多次比较合并成一次,降低了被驱动表的访问频率。

注意:这里缓存的不只是关联表的列,select 后面的列也会缓存起来。在一个有 N 个 join 关联的 SQL 中会分配 N - 1 个 join buffer。所以查询的时候尽量减少不必要的字段,可以让 join buffer 中可以存放更多的列。

在这里插入图片描述

在这里插入图片描述

(3)参数设置 ① block_nested_loop 通过下面的语句可以查看 block_nested_loop 的状态,默认是开启的。

show variables like '%optimizer_switch%'

② join_buffer_size 驱动表能不能一次加载完,要看 join buffer 能不能存储所有的数据,可以通过下面的语句进行查看,默认情况下 join_buffer_size=256k,当然也可以自行设置。join_buffer_size 的最大值在 32 位系统可以申请 4G,而在 64 位操做系统下可以申请大于 4G 的 Join Buffer 空间(64位 Windows 除外,其大值会被截断为 4G 并发出警告)。

show variables like '%join_buffer%';
3.4.5.join 小结

(1)整体效率比较:INLJ > BNLJ > SNLJ。

(2)永远用小结果集驱动大结果集(其本质就是减少外层循环的数据数量,小的度量单位指的是表行数 * 每行大小)。

select t1.b,t2.* from t1 straight.join t2 on (t1.b=t2.b) where t2.id alter table teacher add index index1(email); 
# 或
mysql> alter table teacher add index index2(email(6));

(2)这两种不同的定义在数据结构和存储上有什么区别呢?下图就是这两个索引的示意图。

在这里插入图片描述

在这里插入图片描述

(3)如果使用的是 index1(即 email 整个字符串的索引结构),执行顺序是这样的: ① 从 index1 索引树找到满足索引值是 ‘zhangssxyz@xxx.com’ 的这条记录,取得 ID2 的值; ② 到主键上查到主键值是 ID2 的行,判断 email 的值是正确的,将这行记录加入结果集; ③ 取 index1 索引树上刚刚查到的位置的下一条记录,发现已经不满足 email = ‘zhangssxyz@xxx.com’ 的条件了,循环结束。

这个过程中,只需要回主键索引取一次数据,所以系统认为只扫描了一行。

(4)如果使用的是 index2(即 email(6) 索引结构),执行顺序是这样的: ① 从 index2 索引树找到满足索引值是 ’zhangs’ 的记录,找到的第一个是ID1; ② 到主键上查到主键值是 ID1 的行,判断出email的值不是 ’zhangssxyz@xxx.com‘,这行记录丢弃; ③ 取 index2 上刚刚查到的位置的下一条记录,发现仍然是 ”zhangs‘,取出 ID2,再到 ID 索引上取整行然后判断,这次值对了,将这行记录加入结果集; ④ 重复上一步,直到在 indxe2 上取到的值不是 ‘zhangs’ 时,循环结束。

也就是说使用前缀索引,定义好长度,就可以做到既节省空间,又不用额外增加太多的查询成本。前面已经讲过区分度,区分度越高越好。因为区分度越高,意味着重复的键值越少。

9.2.前缀索引对覆盖索引的影响

结论:使用前缀索引就用不上覆盖索引对查询性能的优化了,这也是你在选择是否使用前缀索引时需要考虑的一个因素。

10.索引下推 10.1.什么是索引下推?

(1)索引下推 (Index Condition Pushdown, ICP) 是 MySQL 5.6 中新特性,是一种在存储引擎层使用索引过滤数据的一种优化方式。 (2)如果没有 ICP,存储引擎会遍历索引以定位基表中的行,并将它们返回给 MySQL 服务器,由 MySQL 服务器评估 WHERE 后面的条件是否保留行。 (3)启用 ICP 后(一般是默认开启的),如果部分 WHERE 条件可以仅使用索引中的列进行筛选,则 MySQL 服务器会把这部分 WHERE 条件放到存储引擎筛选。然后,存储引擎通过使用索引条目来筛选数据,并且只有在满足这一条件时才从表中读取行。 ① 优点:ICP 可以减少存储引擎必须访问基表的次数和 MySQL 服务器必须访问存储引擎的次数。 ② 缺点:ICP 的加速效果取决于在存储引擎内通过 ICP 筛选掉的数据的比例。

10.2.索引下推的开启与关闭

(1)默认情况下启用索引条件下推。可以通过设置系统变量 optimizer_switch 控制:

# 关闭索引下推
SET optimizer_switch = 'index_condition_pushdown=off';
# 打开索引下推
SET optimizer_switch = 'index_condition_pushdown=on';

(2)当使用索引条件下推时,EXPLAIN 语句输出结果中 Extra 列内容显示为 Using index condition。

10.3.ICP 的使用条件

(1)只能用于二级索引 (secondary index); (2)explain显示的执行计划中 type 值(join 类型)为 range 、 ref 、 eq_ref 或者 ref_or_null 。 (3)并非全部where条件都可以用ICP筛选,如果 where 条件的字段不在索引列中,还是要读取整表的记录到 server 端做 where 过滤。 (4)ICP 可以用于 MyISAM 和 InnnoDB 存储引擎 (5)MySQL 5.6 版本的不支持分区表的 ICP 功能,5.7 版本的开始支持。 (6)当 SQL 使用覆盖索引时,不支持 ICP 优化方法。

10.4.案例

(1)单列索引(特殊情况)

USE atguigudb1;

EXPLAIN SELECT * FROM s1 WHERE key1 > 'z' AND key1 LIKE '%a';

在这里插入图片描述

以上面的 SQL 语句为例,开启 ICP 后,在使用二级索引 idx_key1 的情况下,假设通过查询条件 key1 > ‘z’ 过滤得到了 1000 条记录(注意这里并不是完整的记录,只是包括索引列+主键,即 key1 + id),此时先不着急回表,而是在后面的查询语句 key1 LIKE ‘%a’ 的基础上,对这 1000 条记录再次进行过滤,假设只剩下 100 条记录,此时再根据 id 进行回表操作查找完整的记录即可。

(2)联合索引(普遍情况)

USE atguigudb1;

# 建立 people 表
CREATE TABLE `people`(
`id` INT NOT NULL AUTO_INCREMENT,
`zipcode` VARCHAR(20) COLLATE utf8_bin DEFAULT NULL,
`firstname` VARCHAR(20) COLLATE utf8_bin DEFAULT NULL,
`lastname` VARCHAR(20)COLLATE utf8_bin DEFAULT NULL,
`address` VARCHAR(50) COLLATE utf8_bin DEFAULT NULL,
PRIMARY KEY (`id `),
# 建立联合索引
KEY `zip_last_first`(`zipcode`, `lastname`, `firstname`)
)ENGINE=INNODB AUTo_INCREMENT=5 DEFAULT CHARSET=utf8mb3 COLLATE=utf8_bin;

# 插入数据
INSERT INTO `people` VALUES
('1', '000001', '三', '张', '北京市'),
('2', '000002', '四', '李', '南京市'),
('3', '000003', '五', '王', '上海市'),
('4', '000001','六', '赵', '天津市');
EXPLAIN SELECT * FROM people 
WHERE zipcode='000001'
AND lastname LIKE '%张%'
AND address LIKE '%北京市%';

在这里插入图片描述

① 由上面的查询计划可知,key_len = 63,这说明索引 zip_last_first 中只有索引列 zip 被使用了(like 以通配符 % 开头索引失效)。

② 开启 ICP 后,在使用二级索引(联合索引) zip_last_first 的情况下,假设通过查询条件 zipcode = ‘000001’ 过滤得到了 1000 条记录(注意这里并不是完整的记录,只是包括索引列+主键,即 zipcode, lastname, firstname + id),此时先不着急回表,而是在后面的查询语句 lastname LIKE ‘%张%’ 的基础上,对这 1000 条记录再次进行过滤,假设只剩下 100 条记录,而此时由于字段 address 不在 zipcode, lastname, firstname + id 中,所以无法再次过滤,此时再根据 id 进行回表操作查找完整的记录即可。

③ 如果关闭 ICP,在使用二级索引(联合索引) zip_last_first 的情况下,假设通过查询条件 zipcode = ‘000001’ 过滤得到了 1000 条记录,此时会直接回表,根据 id 查询到完整的记录,然后再根据后面的 2 个查询条件进行过滤。其缺点就比较明显,如果通过查询条件 zipcode = ‘000001’ 过滤得到的记录数非常大(比如有几百万条),那么此时直接全部回表的效率会比较低。

④ 注:具体 key_len 的计算可以查看MySQL高级篇知识点——性能分析工具的使用这篇文章的第 6.4.7 节,key_len = 63 的由来如下: varchar(20) 变长字段且允许 NULL = 20 * (character set:utf8 = 3, gbk = 2, latin1 = 1) + 1(NULL) + 2(变长字段) = 20 * 3 + 1 + 2 = 63

10.5.开启/关闭索引下推的性能对比 10.5.1.准备数据
# 创建存储过程,向 people 表中添加 1000000 条数据,测试 ICP 开启和关闭状态下的性能
DELIMITER //
CREATE PROCEDURE insert_people (max_num INT)
BEGIN
	DECLARE i INT DEFAULT 0;
	SET autocommit = 0;
	REPEAT
	SET i = i + 1;
	INSERT INTO people (zipcode, firstname ,lastname, address ) VALUES ('000001', '六', '赵', '天津市');
	UNTIL i = max_num
	END REPEAT;
	COMMIT;
END //
DELIMITER;

# 调用存储过程,插入 1000000 条数据
CALL insert_people(1000000);

在这里插入图片描述

10.5.2.性能对比

(1)打开 profiling。

set profiling = 1;

(2)执行 SQL 语句,此时默认打开索引下推。

SELECT * FROM people WHERE zipcode='008801' AND lastname LIKE '%张%';

在这里插入图片描述

(3)再次执行 SQL 语句,不使用索引下推(也可通过设置 optimizer_switch 来关闭索引下推)。

SELECT /*+ no_icp (people) */ * FROM people WHERE zipcode=' e88801' AND lastname LIKE '%张%' ;

在这里插入图片描述

(4)查看 profiles。

在这里插入图片描述 在这里插入图片描述 在这里插入图片描述

对比结果可知,开启 ICP 后查询所消耗的时间明显少于关闭 ICP 的!

11.普通索引 vs 唯一索引

(1)从性能的角度考虑,你选择唯一索引还是普通索引呢?选择的依据是什么呢?

(2)假设,我们有一个主键列为 ID 的表,表中有字段 k,并且在 k 上有索引,假设字段 k 上的值都不重复。这个表的建表语句是:

mysql> create table test( 
id int primary key, 
k int not null, 
name varchar(16), 
index (k) 
)engine=InnoDB;

表中 R1~R5 的 (ID, k )值分别为 (100,1)、(200,2)、(300,3)、(500,5) 和 (600,6)。

11.1.查询过程

假设,执行查询的语句是:

select id from test where k = 5;

① 对于普通索引来说,查找到满足条件的第一个记录 (5,500) 后,需要查找下一个记录,直到碰到第一个不满足 k = 5 条件的记录。 ② 对于唯一索引来说,由于索引定义了唯一性,查找到第一个满足条件的记录后,就会停止继续检索。

那么,这个不同带来的性能差距会有多少呢?答案是, 微乎其微 。

11.2.更新过程

(1)为了说明普通索引和唯一索引对更新语句性能的影响这个问题,介绍一下 change buffer。

(2)当需要更新一个数据页时,如果数据页在内存中就直接更新,而如果这个数据页还没有在内存中的话,在不影响数据一致性的前提下, InooDB 会将这些更新操作缓存在 change buffer 中,这样就不需要从磁盘中读入这个数据页了。在下次查询需要访问这个数据页的时候,将数据页读入内存,然后执行 change buffer 中与这个页有关的操作。通过这种方式就能保证这个数据逻辑的正确性。

(3)将 change buffer 中的操作应用到原数据页,得到最新结果的过程称为 merge 。除了访问这个数据页会触发 merge 外,系统有后台线程会定期 merge。在数据库正常关闭 (shutdown) 的过程中,也会执行 merge 操作。

(4)如果能够将更新操作先记录在 change buffer, 减少读磁盘,语句的执行速度会得到明显的提升。而且,数据读入内存是需要占用 buffer pool 的,所以这种方式还能够避免占用内存,提高内存利用率。

(5)唯一索引的更新就不能使用 change buffer ,实际上也只有普通索引可以使用。

如果要在这张表中插入一个新记录 (4, 400) 的话,InnoDB 的处理流程是怎样的?

11.3. change buffer的使用场景

(1)普通索引和唯一索引应该怎么选择?其实,这两类索引在查询能力上是没差别的,主要考虑的是对更新性能的影响。所以,建议尽量选择普通索引。 (2)在实际使用中会发现, 普通索引和 change buffer 的配合使用,对于数据量大的表的更新优化还是很明显的。 (3)如果所有的更新后面,都马上伴随着对这个记录的查询,那么你应该关闭 change buffer 。而在其他情况下,change buffer 都能提升更新性能。 (4)由于唯一索引用不上 change buffer 的优化机制,因此如果业务可以接受,从性能角度出发建议优先考虑非唯一索引。但是如果"业务可能无法确保"的情况下,怎么处理呢? ① 首先, 业务正确性优先 。我们的前提是“业务代码已经保证不会写入重复数据”的情况下,讨论性能问题。如果业务不能保证,或者业务就是要求数据库来做约束,那么没得选,必须创建唯一索引。这种情况下,本节的意义在于,如果碰上了大量插入数据慢、内存命中率低的时候,给你多提供一个排查思路。 ② 然后,在一些"归档库"的场景,你是可以考虑使用唯一索引的。比如,线上数据只需要保留半年,然后历史数据保存在归档库。这时候,归档数据已经是确保没有唯一键冲突了。要提高归档效率,可以考虑把表里面的唯一索引改成普通索引。

12.其它查询优化策略 12.1.EXISTS 和 IN 的区分

问题:不太理解哪种情况下应该使用 EXISTS,哪种情况应该用 IN。选择的标准是看能否使用表的索引吗? 回答:索引是个前提,其实选择与否还是要看表的大小。你可以将选择的标准理解为小表驱动大表。在这种方式下效率是最高的。

比如下面这样:

SELECT * FROM A WHERE cc IN (SELECT ce FROM B)
SELECT * FROM A WHERE EXISTS (SELECT cc FROM B WHERE B.cc=A.cc)

① 当 A 小于 B 时,用 EXISTS。因为 EXISTS 的实现,相当于外表循环,实现的逻辑类似于:

for i in A
	for j in B
		if j.cc == i.cc then ...

② 当 B 小于 A 时用 IN,因为实现的逻辑类似于:

for i in B
	for j in A
		if j.cc == i.cc then ...

哪个表小就用哪个表来驱动,A 表小就用 EXISTS,B 表小就用 IN。

12.2.COUNT(*) 与 COUNT(具体字段)效率

问:在 MySQL 中统计数据表的行数,可以使用三种方式:SELECT COUNT(*)、SELECT COUNT(1) 和 SELECT COUNT(具体字段),使用这三者之间的查询效率是怎样的? 答: 前提:如果你要统计的是某个字段的非空数据行数,则另当别论,毕竟比较执行效率的前提是结果一样才可以。 环节1:COUNT(*)COUNT(1) 都是对所有结果进行 COUNTCOUNT(*)COUNT(1) 本质上并没有区别(二者执行时间可能略有差别,不过你还是可以把它俩的执行效率看成是相等的)。如果有 WHERE 子句,则是对所有符合筛选条件的数据行进行统计;如果没有WHERE子句,则是对数据表的数据行数进行统计。

环节2:如果是 MyISAM 存储引擎,统计数据表的行数只需要O(1)的复杂度,这是因为每张 MyISAM 的数据表都有一个 meta 信息存储了row_count值,而一致性则是由表级锁来保证的。

如果是 InnoDB 存储引擎,因为 InnoDB 支持事务,采用行级锁和 MVCC 机制,所以无法像 MyISAM 一样,维护一个 row_count 变量,因此需要采用扫描全表,是 O(n) 的复杂度,进行循环+计数的方式来完成统计。

环节3:在 InnoDB 引擎中,如果采用 COUNT(具体字段) 来统计数据行数,要尽量采用二级索引。因为主键采用的索引是聚簇索引,聚簇索引包含的信息多,明显会大于二级索引(非聚簇索引)。对于 COUNT(*)COUNT(1) 来说,它们不需要查找具体的行,只是统计行数,系统会自动采用占用空间更小的二级索引来进行统计。

如果有多个二级索引,会使用 key_len 小的二级索引进行扫描。当没有二级索引的时候,才会采用主键索引来进行统计。

12.3.关于 SELECT(*)

在表查询中,建议明确字段,不要使用 * 作为查询的字段列表,推荐使用SELECT 查询。原因: ① MySQL 在解析的过程中,会通过查询数据字典将"*"按序转换成所有列名,这会大大的耗费资源和时间。 ② 无法使用覆盖索引

12.4.LIMIT 1 对优化的影响

(1)针对的是会扫描全表的 SQL 语句,如果你可以确定结果集只有一条,那么加上LIMIT 1的时候,当找到一条结果的时候就不会继续扫描了,这样会加快查询速度。

(2)如果数据表已经对字段建立了唯一索引,那么可以通过索引进行查询,不会全表扫描的话,就不需要加上LIMIT 1了。

12.5.多使用 COMMIT

(1)只要有可能,在程序中尽量多使用 COMMIT,这样程序的性能得到提高,需求也会因为 COMMIT 所释放的资源而减少。 (2)COMMIT 所释放的资源: ① 回滚段上用于恢复数据的信息; ② 被程序语句获得的锁; ③ redo / undo log buffer 中的空间; ④ 管理上述 3 种资源中的内部花费;

13.淘宝数据库的主键是如何设计的?

聊一个实际问题:淘宝数据库的主键是如何设计的? 某些错的离谱的答案还在网上年复一年的流传着,甚至还成为了所谓的 MySQL 军规。其中,一个最明显的错误就是关于 MySQL 的主键设计。大部分人的回答如此自信:用 8 字节的 BIGINT 做主键,而不要用 INT。 错!这样的回答,只站在了数据库这一层,而没有从业务的角度思考主键。主键就是一个自增 ID 吗?用自增做主键,架构设计上可能连及格都拿不到!

13.1 自增 ID 的问题

自增 ID 做主键,简单易懂,几乎所有数据库都支持自增类型,只是实现上各自有所不同而已。自增 ID 除了简单,其他都是缺点,总体来看存在以下几方面的问题: (1)可靠性不高 存在自增 ID 回溯的问题,这个问题直到最新版本的 MySQL 8.0 才修复。

(2)安全性不高 对外暴露的接口可以非常容易猜测对应的信息。比如:/User/1/这样的接口,可以非常容易猜测用户 ID 的值为多少,总用户数量有多少,也可以非常容易地通过接口进行数据的爬取。

(3)性能差 自增 ID 的性能较差,需要在数据库服务器端生成。

(4)交互多 业务还需要额外执行一次类似 last_insert_id() 的函数才能知道刚才插入的自增值,这需要多一次的网络交互。在海量并发的系统中,多1条SQL,就多一次性能上的开销。

(5)局部唯一性 最重要的一点,自增ID是局部唯一,只在当前数据库实例中唯一,而不是全局唯一,在任意服务器间都是唯一的。对于目前分布式系统来说,这简直就是噩梦。

13.2.业务字段做主键

为了能够唯一地标识一个会员的信息,需要为 会员信息表 设置一个主键。那么,怎么为这个表设置主键,才能达到我们理想的目标呢? 这里我们考虑业务字段做主键。假设表数据如下:

在这里插入图片描述

在这个表里,哪个字段比较合适呢?

13.2.1.选择卡号 (cardno)

(1)会员卡号 (cardno) 看起来比较合适,因为会员卡号不能为空,而且有唯一性,可以用来标识一条会员记录。

mysql> CREATE TABLE demo.membermaster
-> (
-> cardno CHAR(8) PRIMARY KEY, -- 会员卡号为主键
-> membername TEXT,
-> memberphone TEXT,
-> memberpid TEXT,
-> memberaddress TEXT,
-> sex TEXT,
-> birthday DATETIME
-> ); 
Query OK, 0 rows affected (0.06 sec)

不同的会员卡号对应不同的会员,字段“cardno”唯一地标识某一个会员。如果都是这样,会员卡号与会员一一对应,系统是可以正常运行的。

(2)但实际情况是, 会员卡号可能存在重复使用的情况。比如,张三因为工作变动搬离了原来的地址,不再到商家的门店消费了 (退还了会员卡),于是张三就不再是这个商家门店的会员了。但是,商家不想让这个会员卡空着,就把卡号是“10000001”的会员卡发给了王五。

(3)从系统设计的角度看,这个变化只是修改了会员信息表中的卡号是“10000001”这个会员 信息,并不会影响到数据一致性。也就是说,修改会员卡号是“10000001”的会员信息, 系统的各个模块,都会获取到修改后的会员信息,不会出现“有的模块获取到修改之前的会员信息,有的模块获取到修改后的会员信息,而导致系统内部数据不一致”的情况。因此,从信息系统层面上看是没问题的。

(4)但是从使用统的业务层面 来看,就有很大的问题了,会对商家造成影响。比如,我们有一个销售流水表 (trans),记录了所有的销售流水明细。2020 年 12 月 01 日,张三在门店购买了一本书,消费了 89 元。那么,系统中就有了张三买书的流水记录,如下所示:

在这里插入图片描述

接着,我们查询一下 2020 年 12 月 01 日的会员销售记录:

mysql> SELECT b.membername,c.goodsname,a.quantity,a.salesvalue,a.transdate
-> FROM demo.trans AS a
-> JOIN demo.membermaster AS b
-> JOIN demo.goodsmaster AS c
-> ON (a.cardno = b.cardno AND a.itemnumber=c.itemnumber); 
+------------+-----------+----------+------------+---------------------+
| membername | goodsname | quantity | salesvalue | transdate 		   | 
+------------+-----------+----------+------------+---------------------+
| 张三		 | 书 		 | 1.000 	| 89.00 	 | 2020-12-01 00:00:00 | 
+------------+-----------+----------+------------+---------------------+
1 row in set (0.00 sec)

如果会员卡“10000001”又发给了王五,我们会更改会员信息表。导致查询时:

mysql> SELECT b.membername,c.goodsname,a.quantity,a.salesvalue,a.transdate
-> FROM demo.trans AS a
-> JOIN demo.membermaster AS b
-> JOIN demo.goodsmaster AS c
-> ON (a.cardno = b.cardno AND a.itemnumber=c.itemnumber); 
+------------+-----------+----------+------------+---------------------+
| membername | goodsname | quantity | salesvalue | transdate 		   | 
+------------+-----------+----------+------------+---------------------+
| 王五 		 | 书 		 | 1.000 	| 89.00 	 | 2020-12-01 00:00:00 | 
+------------+-----------+----------+------------+---------------------+
1 row in set (0.01 sec)

这次得到的结果是:王五在 2020 年 12 月 01 日,买了一本书,消费 89 元。显然是错误的!结论:千万不能把会员卡号当做主键。

13.2.2.选择会员电话或身份证号

(1)会员电话可以做主键吗?不行的。在实际操作中,手机号也存在被运营商收回,重新发给别人用的情况。 (2)那身份证号行不行呢?好像可以。因为身份证决不会重复,身份证号与一个人存在一一对 应的关系。可问题是,身份证号属于个人隐私 ,顾客不一定愿意给你。要是强制要求会员必须登记身份证号,会把很多客人赶跑的。其实,客户电话也有这个问题,这也是我们在设计会员信息表的时候,允许身份证号和电话都为空的原因。 (3)所以,建议尽量不要用跟业务有关的字段做主键。毕竟,作为项目设计的技术人员,我们谁也无法预测在项目的整个生命周期中,哪个业务字段会因为项目的业务需求而有重复,或者重用之类的情况出现。

经验:刚开始使用 MySQL 时,很多人都很容易犯的错误是喜欢用业务字段做主键,想当然地认为了解业务需求,但实际情况往往出乎意料,而更改主键设置的成本非常高。

13.3.淘宝的主键设计

(1)在淘宝的电商业务中,订单服务是一个核心业务。那订单表的主键淘宝是如何设计的呢?是自增 ID 吗?打开淘宝,看一下订单信息:

在这里插入图片描述

从上图可以发现,订单号不是自增 ID!我们详细看下上述4个订单号:

1550672064762308113 
1481195847180308113 
1431156171142308113 
1431146631521308113

(2)订单号是 19 位的长度,且订单的最后 5 位都是一样的,都是 08113。且订单号的前面 14 位部分是单调递增的。大胆猜测,淘宝的订单 ID 设计应该是:

订单ID = 时间 + 去重字段 + 用户ID后 6 位尾号

这样的设计能做到全局唯一,且对分布式系统查询及其友好。

13.4.推荐的主键设计 13.4.1.非核心业务

非核心业务:对应表的主键自增 ID,如告警、日志、监控等信息。

13.4.2.核心业务

核心业务 :主键设计至少应该是全局唯一且是单调递增。全局唯一保证在各系统之间都是唯一的,单调递增是希望插入时不影响数据库性能。这里推荐最简单的一种主键设计:UUID。

(1)UUID的特点 全局唯一,占用36字节,数据无序,插入性能差。

(2)认识UUID: MySQL 数据库的 UUID 组成如下所示:

UUID = 时间+UUID版本(16字节)- 时钟序列(4字节) - MAC地址(12字节)

我们以 UUID 值 e0ea12d4-6473-11eb-943c-00155dbaa39d 举例: 在这里插入图片描述 ① 为什么 UUID 是全局唯一的? 在 UUID 中时间部分占用 60 位,存储的类似 TIMESTAMP 的时间戳,但表示的是从1582-10-15 00:00:00.00 到现在的 100ns 的计数。可以看到 UUID 存储的时间精度比 TIMESTAMPE 更高,时间维度发生重复的概率降低到 1/100 ns。时钟序列是为了避免时钟被回拨导致产生时间重复的可能性。MAC地址用于全局唯一。

② 为什么 UUID 占用36个字节? UUID根据字符串进行存储,设计时还带有无用"-"字符串,因此总共需要36个字节。

③ 为什么 UUID 是无序的? 因为在 UUID 的设计中,将时间低位放在最前面,而这部分的数据是一直在变化的,并且是无序。

(3)改造 UUID ① 若将时间高低位互换,则时间就是单调递增的了,也就变得单调递增了。MySQL 8.0 可以更换时间低位和时间高位的存储方式,这样 UUID就是有序的 UUID 了。MySQL 8.0 还解决了 UUID 存在的空间占用的问题,除去了 UUID 字符串中无意义的 “-” 字符串,并且将字符串用二进制类型保存,这样存储空间降低为了 16 字节。

② 可以通过 MySQL8.0 提供的 uuid_to_bin 函数实现上述功能,同样的,MySQL 也提供了bin_to_uui函数进行转化:

SET @uuid = UUID(); 

SELECT @uuid,uuid_to_bin(@uuid),uuid_to_bin(@uuid,TRUE);

在这里插入图片描述

③ 通过函数 uuid_to_bin(@uuid,true) 将 UUID 转化为有序 UUID 了。全局唯一 + 单调递增,这不就是我们想要的主键!

(4)有序 UUID 性能测试 16 字节的有序 UUID,相比之前 8 字节的自增 ID,性能和存储空间对比究竟如何呢?我们来做一个测试,插入 1 亿条数据,每条数据占用500 字节,含有 3 个二级索引,最终的结果如下所示:

在这里插入图片描述

从上图可以看到插入 1 亿条数据有序 UUID 是最快的,而且在实际业务使用中有序 UUID 在业务端就可以生成 。还可以进一步减少 SQL 的交互次数。另外,虽然有序 UUID 相比自增 ID 多了 8 个字节,但实际只增大了 3G 的存储空间,还可以接受。

在当今的互联网环境中,非常不推荐自增ID作为主键的数据库设计。更推荐类似有序 UUID 的全局唯一的实现。另外在真实的业务系统中,主键还可以加入业务和系统属性,如用户的尾号,机房的信息等。这样的主键设计就更为考验架构师的水平了。

(5)如果不是 MySQ L8.0 怎么办? 手动赋值字段做主键!比如,设计各个分店的会员表的主键,因为如果每台机器各自产生的数据需要合并,就可能会出现主键重复的问题。可以在总部 MySQL 数据库中,有一个管理信息表,在这个表中添加一个字段,专门用来记录当前会员编号的最大值。门店在添加会员的时候,先到总部 MySQL 数据库中获取这个最大值,在这个基础上加 1,然后用这个值作为新会员的“id”,同时,更新总部 MySQL 数据库管理信息表中的当 前会员编号的最大值。这样一来,各个门店添加会员的时候,都对同一个总部 MySQL 数据库中的数据表字段进 行操作,就解决了各门店添加会员时会员编号冲突的问题。

关注
打赏
1665627467
查看更多评论
立即登录/注册

微信扫码登录

0.0439s