MySQL的B树索引是如何生长的
分享概要
本次分享儒猿专栏《从零开始带你成为MySQL实战优化高手》中Mysql索引的内容。本次会先从一个数据页中如何存储和查询数据开始,拓展到多个数据页中查询数据,分析无索引查询时的低效率问题,然后通过页分裂过渡到主键目录以及索引页相关内容,见证一颗索引树是如何一步步生长起来的。
最后站在更高的角度看下常见的一些索引名词、索引的优缺点以及如何才能设计出更好的索引来,开始分析前我们先来思考下如下的一些面试题:
1。InnoDB的索引数据结构是什么?为什么用这种数据结构?
2。聚簇索引和普通索引的区别是什么?
3。什么是回表操作?它对索引有什么影响吗?
Mysql索引的B树的生长流程如下图所示:
2。B索引树是如何生长的
2。1无索引时的数据查询
数据页是Mysql中数据管理的最小单元,既然我们要研究索引是如何高效查询数据的,首先我们肯定要搞清楚数据是如何存放的,数据页的结构通过上篇文章我们了解到大概是这样的:
而数据表中的每行数据就存放在数据区中,数据区中每行数据以单向链表的方式,通过指针连接起来,如下图所示:
同时每个数据页之间再通过双向链表的方式组织连接起来,如下图所示:
(1)无索引时的数据查询
通过以上对数据页以及数据页内部数据结构初步的分析,现在我们就可以看下,如果说要查询某张表的某行数据会经过什么样的流程。
数据页一开始当然是存放在磁盘中的,一张表对一般会应着多个数据页,查询数据时从磁盘中依次加载数据页到InnoDB的缓冲池中,然后对缓冲池中缓存页的每行数据,通过数据页的单向链表一个一个去遍历查找,如果没有找到,那么就会顺着数据页的双向链表数据结构,依次遍历加载磁盘中的其他数据页到缓冲池中遍历查询。
大家可以看到,像上面这样的查询方式就有点傻了,因为如果恰好你要查的数据行在这张表最后一个数据页的最后一行,那岂不是所有的数据页都要被扫描一遍,然后每个数据页中也是遍历链表,整体的效果就是以O(n)的时间复杂度在遍历链表了,这样查询的性能肯定是不行的。
(2)优化数据页内查询效率槽位
我们先把目光转移到单个数据页内的数据查询,假如说我们现在已经锁定数据就在某个数据页中了,但是我们该怎样快速的从这个数据页中找到我们想要的那行数据呢?
通过之前的分析我们可以知道,最傻的一种方式就是遍历数据页中的单向链表查询,一个节点一个节点去扫描,相对应的查询效率是肉眼可见的低。但是如果说可以像翻书一样,根据目录来减小我们查询的范围,相对应的查询效率不就上来了吗,根据这种想法,InnoDB存储引擎设计了槽位这种方式来组织数据页中的多个数据行,槽位信息存放在数据页中的数据页目录中。
槽位简单来说就是将数据页中的多个数据行分组划分,每个数据行组都找这个组中的主键值最大的那个数据行的地址作为槽位的信息,这样数据页目录中的一个个槽位不就是像是一个个目录了吗,标记好了多个数据行分组的位置信息,如下图所示:
这下有了数据页目录中的槽位信息,此时要查询数据页中的某行数据不就很简答了,比如我们要查询主键为4的那行数据,直接通过二分法以O(logn)的时间复杂度锁定数据页目录中的槽位2,因为槽位之间都是紧密连接的,可以通过槽位2找到槽位1,从槽位1末尾开始,对分组2中的数据开始遍历,因为每个分组中的数据量都很少,此时在这么小的范围内简单遍历下就可以快速找到主键为4的那行数据,时间复杂度从之前的O(n)降低到O(logn)效率还是挺可观的。
但是如果你不是通过主键去查询的,槽位此时就排不上用场,你还得一个一个遍历数据页中的单向链表去找到你想要的那行数据。
2。2索引的前夕页分裂
这里我们先来个小插曲,简单了解下页分裂,这块内容也是后面索引机制能够正常运行的基础。
我们都知道一个数据页就是16KB大小,当一个数据页中的数据行足够多时就会重新创建一个数据页继续写数据行,如果说我们没有用到索引还好,但是如果我们要在表中创建索引,那么对多个数据页中的数据就有约束了。
如果新创建的数据页中的数据行的主键值,存在比它上一个数据页的主键值还小的情况,这种情况是不被允许的,如下图所示:
如果出现上图的情况,多个数据页之间的主键就无序了,而索引机制的实现是要基于多个数据页主键的大小是依次递增的,所以此时就会出现页分裂的情况。
其实页分裂目的也很明确,就是调整下不同数据页的数据顺序,使得最终按顺序创建的索引页之间,后一个数据页中的每一个数据行的主键值都要大于上一个数据页,当然一个数据页中当然是按照单向链表的方式依次递增的,页分裂流程如下图所示:
我们可以看到页分裂主要就是调整了下数据页之间数据行的数据的顺序,使得多个数据页之间的主键值是按照顺序来存放的,在这样有序的数据中,高效查询才变得可能。
频繁的出现页分裂情况,毕竟页分裂要涉及到数据的移动,在性能上也是会有损耗的,这也警示我们减少页分裂的出现概率是非常有必要的,在设计表结构时我们可以尽量使用主键自增长的方式,而不是用很难保证主键顺序的自定义创建主键的方式,使用主键自增长方式,能大大避免说数据页之间主键大小出现顺序错乱的问题,减少页分裂发生的概率。
2。2从主键目录到索引页
查询一行数据,在物理层面就是定位到哪一个数据页中的哪一行数据。在数据页中定位数据的问题,在之前我们已经通过槽位的方式优化了查询的效率,现在我们要解决的是如何在大量的数据页中定位数据页,这就是索引的目标。
(1)主键目录
InnoDB存储引擎一开始是使用主键目录的方式,将数据页号和数据页最小的主键值作为一条记录,如下图所示:
这样的话,我们要查哪一条数据就不用扫描一个数据页内的所有数据再扫描下一个了,直接通过id去主键目录看一下,通过二分查找定位到具体哪个数据页,然后数据页内部通过定位槽位,遍历那个槽位对应数据行分组找到具体的一行数据。
(2)索引页
现在有一个问题就是,每张表对应的数据页都有很多,主键目录就会有大量的数据、就有可能放不下,这时InnoDB设计者们就想存放目录数据也是数据啊,为什么不可以使用数据页来放呢,就这样主键目录的信息就被移到数据页来了,而这些数据页就被称为索引页,如下图所示:
从这里我们可以知道数据页肯定不是简单只存放数据表中的数据的。好了,现在主键目录由于容量有限,我们把主键目录信息移动到了数据页中形成了索引页,但同样的问题不还是会出现吗,一个数据页的大小也才16KB,索引页本身的容量也是有限的,容量不够了该怎么办呢?
为了解决索引页容量不够的问题,索引页会重新创建和升级,先把超出容量的数据放到一个新的索引页中,然后再加一层索引页,如下图所示:
由上图我们可以看到,新的一层索引页35它存放的就不是最小主键对应的数据页目录了,而是最小主键对应的索引页目录了,以此类推如果索引页35这里容量也不够呢,那就继续往上一层扩展啊,最终效果看起来就像下面一样:
大家看出来了吗,由索引页一层一层组成的结构不就是我们经常说的索引树吗,而这棵树在mysql中称之为B索引树。
树这种数据结构天然可以使用二分法查询,所以现在如果我们要查询一条数据,从树的根节点开始通过二分法查找,以O(logn)的时间复杂度锁定数据页,然后在数据页中同样使用二分法锁定槽位,在槽位中简单遍历下不就找到数据了吗,相比于没有索引的场景,速度那可是相当快了。
3。聚簇索引、普通索引和覆盖索引
关于索引有一些常见的名词我们需要加以区分。
首先聚簇索引就是像我们上面看到的一棵树一样,它的叶子节点是一个个数据页,这些数据页中存放的都是数据表中每一行的完整数据,所以说如果B树是以完整数据的数据页为叶子节点的,我们把这个索引树称为聚簇索引;如果一个索引的索引树,叶子节点不是以数据页为叶子节点的,就称为二级索引或普通索引。
聚簇索引和普通索引最大的区别就是,聚簇索引的叶子节点存放了数据行的完整数据,而二级索引叶子节点只有数据的部分字段。
而覆盖索引本身并不是一种索引,而是一种查询数据的方式,比如我们对表table中的字段name建立了索引,然后我们执行查询如:selectnamefromtablewherenamelike张,此时直接从name字段对应的B树种查询到对应的一批name值,然后直接就返回就行了,也就是说我们想要的字段name它本来就在索引上,我们直接通过二分法高效的从树上直接摘下来就行了,而这种查询方式就称为覆盖索引。
当然相比于覆盖索引方式,如果查询改为:selectfromtablewherenamelike张,这就不是覆盖索引了,因为此时你不光要从索引树上找到具体的name,还要利用id值回表查询所有的字段。
4。索引的优缺点分析
索引的优点当然就是高效查询数据,索引将遍历链表的O(n)的查询时间复杂度优化为了O(logn)的时间复杂度。
但是索引的缺点也是很明显的,首先在时间角度上,它必须要求主键是要按顺序增长的,无序的主键会带来频繁的页分裂,影响效率;对数据库表的增删改操作的同时也需要维护索引,这部分的维护也是一块性能损耗点;在空间角度上:索引相关的数据和实际数据一样都是要占内存空间的。
所以索引虽然能够提高查询效率,但是同时也要承担它给我们的系统带来的性能损耗,从这点上来看索引并不是建的越多越好。
5。三个维度设计好索引
下面我们从以下三个维度优化下索引的设计
(1)首先我们从时间角度上
我们需要为了避免频繁的页分裂,需要尽可能使用主键自增长等方式,保证新增的数据页中的数据行的主键都是递增,避免不必要的页分裂带来的性能损耗和拖慢查询效率。
另外选择合适的字段作为索引字段也很重要,需要选择基数较大的字段,也就是一个字段可能出现的值比较多,这样我们在B树中查询时,才能最高效的发挥出二分法查询的威力,如果建立索引的字段基数比较小可能查询时二分查找就会退化成时间复杂度为O(n)的线性查询了。
(2)空间的角度上
因为索引数据本身也是要占空间的,可以选择字段长度较小的作为索引字段,这样整棵B树不至于那么占空间。
但是如果非得要以长字段作为索引也不是不行,可以采用折中的以字段的前缀作为索引,这样的索引也称为前缀索引,但是这样可能只能用在模糊查询上了,用在groupby和orderby上就不太适合了。
(3)作用范围上
当然我们设计索引的目的,当然是为了更好的用上索引,索引在设计时,尽可能让where、groupby、orderby这些语句都能用上索引。
6。面试题剖析
strongtoutiaooriginspan1。InnoDB的索引数据结构是什么?为什么用这种数据结构?strong
2。聚簇索引、普通索引区别是什么?
strongtoutiaooriginspan3。什么是回表操作?它对索引有什么影响吗?strong
END
开空调如何降低油耗先通风再降温连日的高温天气,让一向性格沉稳、开车温和的同事惊呼他的1。6L开出12L多一百公里的油耗。究其原因是因为他怕热又易初出汗所以只要在车上空调就必须自始至终开启,导致发动机负荷增加……
教育部的通知来了,高中或将增加一门课程,学生听了喜忧参半时代在发展,社会在进步,人才的需求量随之增加,人们对学生的教育也越发看重。百年大计,教育为本。学生的学习和健康都是不能忽视的。近些年,由于学生的课业压力大,有的学生早早就……
12个小技巧让宝宝爱上喝奶瓶宝宝不吃奶瓶怎么办?相信这个问题一定困扰着很多妈妈们,进而困扰着我们的门店。宝宝脱离了妈妈的乳头,去适应一个没有妈妈温度的奶瓶,宝宝自然会有些不开心。那么究竟宝宝不吃奶瓶怎么办……
宝宝个子矮是不是应该换奶粉?身高是反应宝宝生长发育的直观指标之一,如果奶粉喂养的宝宝身高没有预期中的高,家长就开始着急了:是不是我家宝宝吃的这个奶粉有问题?、吃什么奶粉宝宝才长高高啊?、我家宝宝身高落后了……
怎么讲故事孩子喜欢听解读《小巫教你讲故事》作者:小巫还记得小时候什么事情最让你记忆深刻吗?每每回想都是夏夜里妈妈边摇着大蒲扇边给我讲故事的情景。什么《没头脑与不高兴》、《皮皮鲁和……
燕窝别和它炖了,真的没营养!与燕窝宜忌食物大盘点越来越多的人通过食用燕窝,来达到进补的作用,但并不是人人都知道,某些食物与燕窝搭配食用,会破坏燕窝中的营养物质。吃下去的是滋补的补品,还是毫无用处的糊糊,就看你会不会选择……
父母的情绪化教育,影响孩子的心理成长,两个方法树立榜样导语:现代生活中,孩子的话题一直是主旋律。很多家长也会聚集在一起,谈谈是怎么教育孩子的。家长的教育方式对于孩子的成长很是重要,家长对于孩子出现犯错很多都是选择打骂孩子,或者是为……
你不知道怎么教育孩子?3步告诉你孩子该如何教育育儿的不同观念说到孩子,最初的宝宝是刚出生时候到一周岁期间,这时候他们的身体正是高速发育的时候,而我是一个情绪化非常极端的爸爸,所以对孩子的关注不是太多,更多时候是靠妈妈……
恩爱的夫妻才会有的4个表现,装不出来优优妈妈据说,再恩爱的夫妻,一生中都有100次想离婚的念头和50次想掐死对方的冲动。绝大多数时候,一段感情分崩离析不是因为什么大事,而是日常琐事中一点一点的心死,就……
书籍中令你惊艳的人名,哪一个让你最深刻?宝剑锋从磨砺出,学海无涯苦作舟。,书中自有黄金屋,中自有颜如玉。这是对我们喜欢读书的人的一种激励,也是我们一生的座右铭,我们从书中可以获得很多的知识,包括广义上的知识和专业类的……
新生儿最迟多久打疫苗?新生儿最迟多久打疫苗如果没有特殊情况,一般不建议推迟接种疫苗。如确需推迟接种,不同疫苗的免疫程序不同,能推迟的时间也就不同。如脊髓灰质炎灭活疫苗,接种第一剂最晚也应……
陪护日记(2)陪护日记2022年1日22曰星期六大雪上午8点20来到病室,检查妈的尿布湿,换了尿不湿,过早,给妈带了南瓜粥,孙大姐给妈喂了几口就不吃了,妈有点烦躁,我和孙姐不停的……