在我们日常开发中,分页查询是必不可少的,可以说每干后端程序猿大部分时间都是 CURD,所以分页的查询也接触的不少,你们都是怎么实现的呢?前不久的一段时间,我的一个同事突然找我寻求帮助,他说他写的 sql 查询太慢了,问我能不能帮他优化一下那条查询语句,经过一段时间的优化,我们成功的将原来 8 秒一条的 sql 成功优化到了不到一秒,然而想到知识应该学会分享,所以我今天打算写出这个优化过程,可以让更多的程序猿可以看到。
为什么想到了优化分页查询
同事:hi boy ,让我们一起来探讨一下理想如何?握草,我一听就觉得事情不对,肯定没好事,走过去一看,同事对我说,他维护的这张日志表数据已经超过 500w 了,可能是测试的同事在做压力测试,导致了数据库的用户操作日志记录一下子就突破了几百万,现在,同事写的分页查询速度已经很慢很慢了,当查询的记录越靠后的时候,查询时间越久,果不其然,没过多久,我们就在禅道上看到了测试大哥提交的 bug:查看 1000 页以后的日志返回速度极慢,这是被迫优化啊,好尴尬。
如何优化
问题是找到了,那是因为当数据库存放的记录过大的时候,查询也靠后的记录速度越慢,为什么查询越靠后的记录就越慢呢?
我这里主要介绍 mysql 的分页优化,sqlserver、Oracle 可以参考思想,还是回归之前的那个问题,我们来看看为什么查询会慢?我们需要实现准备好数据表以及记录。
创建数据表
添加数据
我在数据表中添加了 100w 张三、100w 李四、100w 王五、200 赵六的用户,所以表中一共 500w 数据,添加数据的方式采用的存储过程。
查询过慢的原因
数据表和记录都已经准备好了,现在我们就需要来排查为什么分页查询页码越靠后查询速度越慢,我们先来看一个普通的分页查询:
这是查询第十页的数据,我相信大部分的人在写分页查询的时候都是这么写的,其中 100:偏移量,意思就是说从哪里之后就是我需要的数据据,10:表示需要查询多少条记录,这个就是 mysql 的分页查询语法,你能看出这条 sql 存在什么问题吗?乍一看好像没啥问题,真的是这样吗?我们来看几个例子。
1:偏移量 = 0
查询时间
2. 偏移量 = 1000
查询时间
3. 偏移量 = 10000
查询结果
就算偏移量达到了 10000,我们的查询速度还是很快的,这说明这条 sql 就没有任何问题了吗?既然这样,我就让你们看一下当偏移量达到 200w 的时候,会发生什么事情?
4. 偏移量 = 400w
查询结果
也就是说偏移量越大,查询的时候就越久,这是问什么呢?明明都是从查询 10 条记录,为什么偏移量越大,查询时间越久呢?
limit 分页的原理
为什么会慢?我们不妨先猜测一下,像函数、扫描记录过多等等都会影响查询的速度,很显然这里我们并没有使用到函数,所以这会不会是扫描的记录过多呢?这个就和 limit 有关了,你们知道 limit 是如何实现分页的吗?我们使用 wxplain 关键字来分别打印一下偏移量 = 0、1000、10000、400w 的查询详情。
1:偏移量 = 0
2. 偏移量 = 1000
3. 偏移量 = 10000
4. 偏移量 = 400w
我们先来解释一下这些字段分别是什么意思
id: 标识符 select_type: 查询的类型。table: 结果表 partitions: 匹配的分区 type: 表的连接类型 possible_keys: 也许会使用的索引 key: 实际使用的索引 key_len: 索引字段的长度 ref: 列与索引的比较 rows: 扫描出的行数 filtered: 按表条件过滤的行百分比 Extra: 执行情况的描述和说明
我们对比一下上面的信息,会发现只有一个字段的值有着很大的区别,那就是 rows:扫描的行数,当 limit 分页的偏移量越大的时候扫描的行数就越多,这就是为什么我们查询越靠后的数据越慢。
假如你现在要查询的偏移量为 100w,那么 limit 会扫描 1000010 行,然后丢弃前 100w 行数据,留下最后 10 行,返回给我们,所以说我们只需要控制扫描的行数,查询的速度自然就快了,那如何控制扫描的行数呢?
1. 最大 id 查询法
扫描意思呢?举个例子,我查询第一页的时候是 limit 0,10 查询到的最后一条 id 是 10,那么下一页的查询只需要查询 id 大于 10 的 19 条数据即可。
]) 我们看到 rows=1949780,这个表示可能扫描了这么多行,这个行数是因为扫描 id>400w 的记录,后面还有两百万,而这里表示可能扫描了 1949780 行,但是由于 limit 10 的存在,所以扫描了 10 行之后就停止扫描了,我们也可以对比一下使用这种方式和直接使用 limit 4000000,10 的效率,千差万别。但是这种比较局限,只能适用于自增组件,是哦那个 uuid 生成的主键这种方式不适用。
2.BETWEEN … AND
这种方式也只能适用于自增主键,并且 id 没有断裂,否者不推荐这种方式,我们发现使用 BETWEEN AND 的时候查询出来 11 条记录,也就是说 BETWEEN AND 包含了两边的边间条件。使用的时候需要特别注意一下。
3.limit id
这种查询方式就是先扫描 4000010 行,但是只取出 id,然后再查询 id 大于这个值的前 10 条,这样虽然也是扫描了 400 多 w 行记录,由于 id 是主键,拥有者主键索引,所以查询 查询一个 id 的 limit 速度会快很多,我们可以对比一下一开始的 limit 4000000,10,效率相差了 3 倍多。
4. 延迟关联(个人推荐)
什么叫延迟关联,他让 mysql 扫描尽可能少的记录,获取到需要访问的记录后再根据关联列回到远表查询需要的所有列,这样听起来是不是很拗口,我们用 sql 来实现一下。
我们可以看到这种查看的方式和第三种的效率差不多,但是当字段比较多,类型的长度比较长的时候,这种还是比较有优势的。
5. 分表查询
mysql 推荐一张表的存储不要超过 500w 数据,查询 400w 不到 1 秒对于一般的查询来说已经可以了,如果还要更快的话,我建议使用分表存储,分表又分两种情况,水平分表于垂直分表。
水平分表
假如一张表的原始数据有 1000w 条数据,我可分三张表存储,一张表 300 的万,这样查询的时候压力就会小很多,并且效率也很高很多,那问题来了,如何这个水平水表如何实现呢?像可以借助 mycat 之类的中间件,阿里云也提供了数据库的分表技术,当然,你也可以自己手写分表,但是自己手写分表的时候需要注意 id 重复以及如何定义搭配当前 id 在那张表中,算法推荐使用 hash 值。
垂直分表
假如张彪的记录有 100w,按正常来说查询速度应该不会太慢,但是由于这张表的字段超多,而且还有很多 text 类型的字段,这个时候我们可以将占用空间比较小的字段分在一张表,占用空间比较大的字段分在另一张表,两张表一一关联,这样,查询的时候就会快很多了。
冷热表
这里我还有一种分表思想,可以借鉴一下,那就是冷热表。
什么是冷热表?大家都用银行的 app 吧,你们查询账单的时候会发现只能查询近几个月的数据,之前的数据需要去柜台获取在查询历史账单中查看,他这里就是冷热表的设计思想。
我们新建两张一模一样的表,一张表存放近三个月的记录(时间随情况而定,不一定时三个月) a 表,另一张表存放三个月之前的数据:b 表,用户产生的新记录可以存放在 a 表中,可以在每天凌晨的时候定时扫描 a 表,只要记录已经在三个月之前了,我们就可以将记录迁移到 b 表中,对于用户来说,查询近三个月的数据时他们比较敏感的,三个月之前的饿数据他们查询的可能并不多,所以这样的设计完全是合理的。
索引
这一点相信大家都知道,添加索引可以提高查询效率,如何我们的分页查询牵扯到条件的话,我们可以给条件添加索引,数据库会维护一张对应的索引表,查询的时候会先查询索引表,根据索引表返回的记录直接查询记录表,这样也减少了扫描的行数,但是需要注意,只要发生一下几点,索引都有可能不会被触发,一定要注意。
- 查询条件使用 is not null。
- 2.like 语句,比如 keyword like ‘% 笔记本’,索引失效,% 不能再最前面。
- 3。OR 前后条件中只要有一个没有添加索引,那么将扫描全表,索引失效。
- 组合索引:使用组合索引的时候必要要带上第一个索引的字段,否则组合索引不生效。
-
、<、 <>。
- 没有单引号的字符串。
- 等等
总结
总而言之,查询优化的重点就在于如何能扫描最少的记录,返回查询的结果,看上去容易,但是真正做起来的时候会发现是那么的不容易,对于写后端的程序猿来说,sql 是家常菜,也是必不可少的一道菜,因为 sql 写的好不好直接决定着你程序的抗压能力强不强,这个时候你可能会说我可以使用缓存来降低数据库的访问,这只是治标不治本,只有写出漂亮的 sql 才能让程序立于不败之地。至于文章开头说的 8 秒是因为同事的那种表比我的这张表复杂得多,并且还加上了查询总记录的时间,我这里并没有给出 count() 查询时间,500w 的数据,count() 差不多都要两秒,所以 sount(*),查询总数也是需要优化的,这个优化就比 limit 的优化简单多了,这里就不多做说明了。