当前位置: 首页 > news >正文

MySQL索引核心:聚集索引与非聚集索引

前言

在学习MySQL过程中,阅读到这样一段话:在 MySQL 中,B+ 树索引按照存储方式的不同分为聚集索引和非聚集索引。我就在想为什么要分为这两种,下面我就详细介绍这两者的联系、优缺点。

一、聚集索引和非聚集索引的本质

  1. 聚集索引
    核心是“数据即索引,索引即数据”:
    • nnoDB 中,表的存储结构本身就是聚集索引的结构,表的所有行数据,都会按照聚集索引的键值(默认是主键)进行排序,存储在聚集索引的叶子节点中。
    • 可以把它理解成:一本按页码(主键)排序的书,书的每一页(叶子节点)就是完整的内容(整行数据)。
  2. 非聚集索引
    是“单独的索引结构,指向数据的指针”:
    • 非聚集索引有自己独立的索引树结构,叶子节点中只存储「索引列的值 + 聚集索引的键值(主键)」,并不存储整行数据。
    • 可以把它理解成:这本书的目录,目录里只记录章节名(索引列)和对应的页码(主键),不记录章节的具体内容。

二、聚集索引和非聚集索引的联系

二者是强绑定的,InnoDB 的设计逻辑里,非聚集索引完全依赖聚集索引:

  1. 非聚集索引的叶子节点,必须存储聚集索引的键值
    InnoDB 的非聚集索引,叶子节点不会直接存储数据的物理地址,而是存储聚集索引的主键值 —— 这是为了保证数据的稳定性(如果数据发生页分裂,物理地址会变化,但主键不会变)
  2. 非聚集索引的回表操作,本质是依赖聚集索引
    当非聚集索引无法覆盖查询(查询字段不在非聚集索引中)时,会先通过非聚集索引找到主键值,再用主键值去聚集索引中查询完整数据,这个过程就是「回表」
  3. 二者的索引树结构逻辑一致
    不管是聚集还是非聚集索引,都采用 B + 树的结构:非叶子节点存储索引键值用于导航,叶子节点存储实际的内容(聚集索引存数据,非聚集索引存索引列 + 主键)

三、优缺点对比

对比维度聚集索引非聚集索引
叶子节点存储存储整行数据存储索引列的值+聚集索引的主键值
索引体积体积大(等于表的实际数据体积)体积小(仅包含索引列和主键,远小于表体积)
访问效率1. 主键查询/范围查询效率极高 2.非主键查询效率极低(需要全表扫描)1. 非主键查询(匹配索引列)效率极高 2.覆盖索引场景下,效率优于聚集索引 3.非覆盖场景需回表,效率略降
排序特性天然按主键排序,无需额外排序可按索引列排序,避免ORDER BY触发的文件排序
创建限制1. 一张表仅能创建1个聚集索引 2.默认以主键为聚集索引;无主键则选唯一非空索引;否则生成隐藏rowid1. 一张表可创建多个非聚集索引 2.支持基于任意字段/联合字段创建
更新代价更新主键(聚集索引键)会导致整行数据移动,代价极高更新索引列仅修改索引树节点,代价低;若索引列是主键,会联动修改所有非聚集索引

四、实战案例

我们用一个电商的订单表(order_info)来举例,表结构如下:

CREATETABLE`order_info`(`order_id`BIGINTNOTNULLCOMMENT'订单ID(主键,聚集索引)',`user_id`BIGINTNOTNULLCOMMENT'用户ID',`order_time`DATETIMENOTNULLCOMMENT'下单时间',`order_amount`DECIMAL(10,2)NOTNULLCOMMENT'订单金额',`order_status`TINYINTNOTNULLCOMMENT'订单状态',PRIMARYKEY(`order_id`),-- 聚集索引KEY`idx_user_time`(`user_id`,`order_time`)-- 非聚集联合索引)ENGINE=InnoDBDEFAULTCHARSET=utf8mb4;

场景 1:适合用聚集索引的场景
如果运营需要查询「订单 ID 为 100001 的订单的所有信息」,SQL 如下:

SELECT*FROMorder_infoWHEREorder_id=100001;
  • 此时用聚集索引(order_id)是最优选择:直接通过主键定位到叶子节点的整行数据,不需要任何额外操作,效率最高

场景 2:适合用非聚集索引(覆盖索引)的场景
如果运营需要查询「用户 ID 为 1001 的所有订单的下单时间和订单金额」,SQL 如下:

SELECTorder_time,order_amountFROMorder_infoWHEREuser_id=1001;
  • 此时我们创建的非聚集联合索引idx_user_time (user_id, order_time),加上 InnoDB 默认存储的主键order_id,但我们的查询字段是order_time和order_amount—— 这里可以优化索引,改成idx_user_time_amount (user_id, order_time, order_amount)
  • 优化后,这个索引就覆盖了查询的所有字段,MySQL 直接从非聚集索引中返回数据,不需要回表,效率远高于用聚集索引查询

场景 3:适合用非聚集索引(需要回表)的场景
如果运营需要查询「用户 ID 为 1001 的所有订单的完整信息」,SQL 如下:

SELECT*FROMorder_infoWHEREuser_id=1001;
  • 此时非聚集索引idx_user_time只能提供user_id、order_time和order_id,无法覆盖所有字段,需要回表:
    1.先通过idx_user_time找到所有user_id=1001的行,拿到对应的order_id
    2.再用order_id去聚集索引中查询整行数据
  • 但这个效率依然远高于用聚集索引全表扫描(聚集索引只能按 order_id 排序,无法快速找到 user_id=1001 的行)

五、实战建议

  1. 聚集索引的选择:尽量用自增主键
    自增主键的插入是顺序的,不会导致聚集索引的页分裂,插入效率更高;如果用 UUID 作为主键,插入时会随机定位位置,导致大量页分裂,性能下降
  2. 非聚集索引的设计:优先考虑覆盖索引
    对于高频查询,尽量创建包含查询所需所有字段的联合索引,避免回表
  3. 不要滥用非聚集索引
    非聚集索引会占用额外的磁盘空间,同时会降低插入 / 更新 / 删除的效率(因为需要维护索引树),只给高频查询的字段创建索引
http://www.gsyq.cn/news/129199.html

相关文章:

  • Linly-Talker镜像支持ARM架构服务器部署吗?
  • Linly-Talker数字人头部转动角度范围有多大?
  • Gemma 3 270M:轻量级多模态文本生成模型
  • 职场高效摸鱼学习助手,核心功能,导入学习资料,文字,音频,自动拆分成五到十分钟片段,界面伪装成工作报表,点击隐藏学习瞬间到工作界面,记录学习,支持后台播放音频,跳过重复内容,避免上班被领导发现。
  • Linly-Talker如何平衡生成速度与画质清晰度?算法优化揭秘
  • 通用AI Agent:从被动应答到主动执行的智能系统全解
  • Linly-Talker能否接入高德地图提供出行导航?
  • diffusers-cd_bedroom256_l2:卧室图像极速生成
  • Wan2.2-T2V-A14B:MoE架构革新视频生成
  • 搞大模型必看的DeepSeek实战指南:这本图解书如何让复杂架构变通透?
  • Linly-Talker镜像包含预训练权重,开箱即用
  • python django flask智慧美食点餐餐桌就餐系统数据可视化大屏分析_91nl08c1--论文
  • Bamboo-mixer:电解质配方预测生成新方案
  • 6、开源操作系统与计算机系统概述
  • 大模型学习基础(六) 强化学习(Reinforcement Learning,RL)初步1.4
  • Linly-Talker能否实现跨平台同步(PC/手机/平板)?
  • 9、SQL Server Reporting Services与PowerShell远程处理实用指南
  • Qwen-Image-Edit-MeiTu:DiT驱动图像编辑新体验
  • Linly-Talker支持H.265编码压缩视频输出吗?
  • Linly-Talker能否生成儿童音色?亲子教育场景潜力巨大
  • 不拆到业务线和部门的战略,都是想当然
  • Linly-Talker语音抗噪能力强,嘈杂环境仍能准确识别
  • 50、Windows 移动计算网络连接全攻略
  • 2025年12月新沂透水砖行业趋势与厂家推荐 - 2025年品牌推荐榜
  • 8、操作系统系统调用与系统程序详解
  • Linly-Talker支持热更新模型吗?不停机升级方案探讨
  • Linly-Talker镜像预装依赖库清单及版本号公开
  • Ring-flash-linear-2.0:稀疏高效的推理新标杆
  • Linly-Talker在老年大学推广中的实践尝试
  • Docker Desktop 内置 K8s 拉取镜像失败?90% 的人踩的是同一个坑