当前位置：首页 > news >正文

Linux内核堆溢出漏洞CVE-2022-0995深度剖析与复现

news 2026/6/24 7:42:15

1. 项目概述：一次对Linux内核堆溢出的深度剖析

最近在整理内部安全审计的案例库时，我又翻出了CVE-2022-0995这个老伙计。它不是一个能让你一键getshell的“炫酷”漏洞，但恰恰是这种深藏在内核核心机制里的“朴实”漏洞，最能考验一个安全研究员对系统底层原理的理解深度。简单来说，这是一个发生在Linux内核watch_queue事件通知机制中的堆溢出漏洞。攻击者通过精心构造的ioctl调用，可以触发一个整数溢出，进而导致内核堆缓冲区越界写入，最终可能实现权限提升或导致系统崩溃。对于从事内核安全、漏洞研究或者系统底层开发的朋友来说，复现并理解这个漏洞，就像解剖一只麻雀，能让你看清Linux内核内存管理、系统调用校验以及竞争条件处理等多个关键模块是如何协同与出错的。今天，我就把自己搭建环境、调试分析、编写利用代码的全过程拆解开来，希望能给想深入此道的朋友提供一个清晰的路线图。

2. 漏洞原理与背景深度解析

2.1 watch_queue机制：内核的“事件监听器”

要理解CVE-2022-0995，首先得弄明白watch_queue是什么。你可以把它想象成内核提供给用户空间的一个“事件订阅”系统。用户程序（订阅者）可以创建一个watch_queue，然后向它“挂载”一个或多个“监视点”（watch），这些监视点关联着内核中的特定对象，比如一个文件描述符（inotify）、一个密钥（key）或者一个管道（pipe）。当被监视的对象状态发生变化时（例如文件被修改、密钥被更新），内核就会生成一个通知事件，并将其放入对应的watch_queue中。用户空间程序则可以通过读取这个队列（通常通过read系统调用）来获知事件。

这套机制的核心数据结构是struct watch_queue和struct watch_notification。通知事件被包装成watch_notification结构体，然后被追加到watch_queue内部的环形缓冲区里。问题就出在这个“追加”操作上。

2.2 漏洞根源：被忽视的整数溢出

漏洞的核心函数是kernel/watch_queue.c中的watch_queue_set_size。用户程序通过ioctl(fd, IOC_WATCH_QUEUE_SET_SIZE, &size)来设置队列缓冲区的大小。内核需要根据用户传入的size参数，计算实际需要分配的内存页数。

关键的漏洞代码逻辑如下（简化）：

pages = (size + PAGE_SIZE - 1) / PAGE_SIZE; // 计算需要的页数 nr_pages = pages + 1; // 额外增加一页作为元数据？ if (nr_pages > 0x1ffff) return -EINVAL;

这里，size是用户控制的unsigned int。当size接近unsigned int的最大值（0xffffffff）时，pages的计算结果会非常大。随后nr_pages = pages + 1这一操作可能导致整数溢出。例如，如果pages已经是0x1ffff（这是后面检查允许的最大值），那么pages + 1就等于0x20000，这通过了nr_pages > 0x1ffff的检查吗？不，它等于，所以检查通过。但真正的危险在于后续。

实际上，更致命的溢出发生在另一处：为了计算总分配大小，代码可能会做类似alloc_size = nr_pages * PAGE_SIZE的操作。如果nr_pages足够大，使得alloc_size超过了size_t（通常是64位）能表示的范围，就会回绕成一个很小的值。内核用这个很小的值去申请内存会成功，但后续逻辑却认为申请到了nr_pages * PAGE_SIZE的巨大空间，并向其写入数据，最终导致堆缓冲区溢出，写入到了分配的内存块之外。

为什么检查会失效？根本原因在于校验逻辑不完整。代码只检查了nr_pages的数量是否超过一个上限，但没有考虑size本身过大导致pages计算溢出，以及nr_pages * PAGE_SIZE的乘法溢出问题。这是一种典型的边界条件处理错误。

2.3 影响与利用场景分析

该漏洞影响Linux内核5.8至5.16.x版本。成功利用需要本地用户权限，并且能够打开某些特定类型的文件描述符（例如eventfd、timerfd）来创建watch_queue。利用目标是实现权限提升（本地提权，LPE）。

利用思路通常分为几步：

触发溢出：通过ioctl调用传入精心计算的size值，触发整数溢出，导致内核分配一个过小的缓冲区，但记录了一个过大的大小。
堆布局塑造：利用内核的堆分配器（SLUB）特性，通过大量分配和释放特定大小的对象，让目标内核数据结构（如cred结构体，存放进程权限）落到溢出的缓冲区后面。
数据覆盖：触发内核向watch_queue缓冲区写入通知事件。由于缓冲区实际大小远小于内核认为的大小，写入的数据会溢出，覆盖后面相邻的堆内存。如果后面恰好是当前进程的cred结构体，覆盖其uid、gid等字段为0（root），就能完成提权。
稳定利用：这步最难。需要解决堆布局的随机性（KASLR、SLUB freelist随机化）以及竞争条件（可能在写入时发生）。通常需要结合其他漏洞或利用技巧来增加稳定性。

注意：实际利用非常复杂，高度依赖于内核版本、编译配置和系统状态。在研究和复现时，务必在完全隔离的虚拟机环境中进行，例如使用QEMU-KVM配合自定义构建的内核。绝对不要在物理机或重要的开发机上尝试。

3. 复现环境搭建与内核调试配置

3.1 构建带调试符号的漏洞版本内核

我选择在Ubuntu 20.04宿主系统上，使用QEMU运行一个自定义的Debian虚拟机来复现。这样最安全，也便于调试。

首先，下载存在漏洞的内核源码。这里以5.13版本为例（该版本确认受影响）：

# 在宿主机上操作 wget https://cdn.kernel.org/pub/linux/kernel/v5.x/linux-5.13.tar.xz tar -xf linux-5.13.tar.xz cd linux-5.13

配置内核，开启调试信息和必要的选项：

make defconfig # 使用默认配置 # 使用 menuconfig 调整关键配置 make menuconfig

在menuconfig中，确保以下选项被启用：

Kernel hacking -> Compile-time checks and compiler options -> Compile the kernel with debug info (DEBUG_INFO)：必须开启，这是GDB调试的基础。
Kernel hacking -> Compile-time checks and compiler options -> Provide GDB scripts for kernel debugging：可选，但建议开启，提供更好的GDB调试体验。
Kernel hacking -> Memory Debugging -> SLUB debug support (SLUB_DEBUG)：建议开启，有助于观察堆状态。
为了方便，可以暂时关闭一些安全加固特性（仅用于研究学习）：
- Security options -> Kernel hardening options -> Disable heap memory zeroing on allocation (INIT_ON_ALLOC_DEFAULT_ON)：关闭，避免新分配堆数据被清零干扰观察。
- Security options -> Kernel hardening options -> Disable heap memory zeroing on free (INIT_ON_FREE_DEFAULT_ON)：关闭。
- 注意： KASLR（内核地址空间布局随机化）通常在Processor type and features中。为了简化初次复现，可以在QEMU启动参数中通过-append "nokaslr"来禁用，而不是直接修改内核配置。

配置完成后，编译内核：

make -j$(nproc)

编译完成后，内核镜像文件为arch/x86/boot/bzImage（假设是x86架构）。

3.2 准备QEMU虚拟机与根文件系统

我们使用busybox制作一个极简的根文件系统，包含必要的工具。

# 在宿主机另一个目录操作 mkdir rootfs && cd rootfs # 下载静态编译的busybox wget https://busybox.net/downloads/binaries/1.35.0-x86_64-linux-musl/busybox chmod +x busybox # 创建基本的文件系统结构 mkdir -p bin dev etc lib proc sys tmp usr/bin usr/sbin ./busybox --install -s bin # 创建init脚本 cat > init << EOF #!/bin/sh mount -t proc none /proc mount -t sysfs none /sys mount -t tmpfs none /tmp echo -e "\nWelcome to CVE-2022-0995 Lab!" exec /bin/sh EOF chmod +x init # 打包成initramfs find . | cpio -o -H newc | gzip > ../rootfs.cpio.gz

3.3 启动虚拟机并配置双机调试

使用QEMU启动虚拟机，并启用GDB调试桩：

# 在宿主机上执行 qemu-system-x86_64 \ -kernel /path/to/linux-5.13/arch/x86/boot/bzImage \ -initrd /path/to/rootfs.cpio.gz \ -append "console=ttyS0 nokaslr nopti quiet" \ -nographic \ -m 512M \ -smp 2 \ -s -S \ # -s 表示在1234端口开启GDB调试，-S 表示启动时暂停 -net none

现在QEMU会暂停，等待GDB连接。

在宿主机另一个终端，启动GDB并连接到虚拟机：

cd /path/to/linux-5.13 gdb vmlinux # vmlinux是带有调试符号的内核文件 (gdb) target remote :1234 (gdb) c # 继续执行

连接成功后，虚拟机将继续启动，并出现shell提示符。这样，我们就拥有了一个完全可控、可调试的漏洞复现环境。

4. 漏洞触发PoC代码编写与分析

我们的目标是先编写一个能稳定触发崩溃（如内核Oops或panic）的PoC（概念验证）代码。这证明了漏洞的可触发性和位置。

4.1 PoC代码实现

以下是一个简化的PoC，它尝试触发watch_queue_set_size中的溢出：

#define _GNU_SOURCE #include <stdio.h> #include <stdlib.h> #include <unistd.h> #include <sys/ioctl.h> #include <sys/syscall.h> #include <linux/watch_queue.h> #include <fcntl.h> #include <errno.h> int main() { int fd; int ret; struct watch_notification_filter filter = {0}; unsigned int size_to_trigger = 0xffffffff; // 接近UINT_MAX的值 // 1. 创建一个可用于watch_queue的文件描述符，这里使用eventfd fd = syscall(SYS_eventfd, 0); if (fd < 0) { perror("eventfd"); exit(EXIT_FAILURE); } // 2. 将其转换为watch_queue ret = ioctl(fd, IOC_WATCH_QUEUE_SET_FILTER, &filter); if (ret < 0) { perror("IOC_WATCH_QUEUE_SET_FILTER"); close(fd); exit(EXIT_FAILURE); } printf("[+] Watch queue created via eventfd %d\n", fd); // 3. 尝试设置一个巨大的size，触发整数溢出计算 printf("[*] Attempting to set size to %u (0x%x)\n", size_to_trigger, size_to_trigger); ret = ioctl(fd, IOC_WATCH_QUEUE_SET_SIZE, &size_to_trigger); if (ret < 0) { perror("IOC_WATCH_QUEUE_SET_SIZE"); printf("[-] ioctl failed (may be expected before patch). Errno: %d\n", errno); } else { printf("[!] Unexpected success! Size set.\n"); // 如果成功，后续写入操作可能触发溢出 } // 4. 尝试写入一个通知，看看是否会触发崩溃 // 这里需要构造一个能产生通知的监视对象，例如监控eventfd本身。 // 更简单的做法是，如果上一步ioctl因溢出导致内部状态不一致，直接关闭fd也可能触发崩溃。 printf("[*] Closing fd, may trigger cleanup and crash...\n"); close(fd); printf("[*] PoC finished. If kernel crashed, check dmesg.\n"); return 0; }

将这段代码在虚拟机中编译并运行：

# 在虚拟机内 gcc -static -o poc poc.c ./poc

如果漏洞存在，并且PoC触发了内核内存错误，你可能会看到内核输出Oops信息，或者虚拟机直接卡住（触发了panic）。在宿主机的GDB中，如果之前设置了断点，此时就会中断，可以查看堆栈和寄存器状态。

4.2 PoC执行结果分析与调试

如果触发了崩溃，在虚拟机内核日志（dmesg）或GDB中，崩溃点很可能在watch_queue相关的函数中，例如post_one_notification或__post_watch_notification，因为这些函数会向那个“错位”的缓冲区写入数据。

在GDB中，我们可以在关键函数设置断点，单步跟踪：

(gdb) break watch_queue_set_size (gdb) break __post_watch_notification (gdb) continue

运行PoC后，GDB会在断点处停下。使用info registers查看寄存器，x/20gx $rdi查看内存，bt查看堆栈回溯，可以清晰地看到参数传递和内存状态。

一个关键的调试技巧：在watch_queue_set_size函数返回前，打印计算出的nr_pages和后续分配的内存地址及大小。这能直观地看到整数溢出是否发生。

(gdb) break *watch_queue_set_size+0x100 # 设置在内部分配函数调用前 (gdb) commands > print pages > print nr_pages > finish > end

实操心得：在编写内核漏洞PoC时，static编译非常重要，因为它不依赖目标虚拟机内的动态链接库，确保在任何 minimalist 根文件系统里都能运行。另外，不要指望第一次运行PoC就能稳定崩溃。内核的堆布局、并发状态都会影响结果。可能需要多次运行，或者结合堆喷（Heap Spraying）技术来增加崩溃的概率。这就是为什么我们下一步要讨论利用。

5. 从崩溃到利用：堆风水与权限覆盖

让内核崩溃只是第一步，我们的终极目标是可控的堆溢出，并利用它来提升权限。这涉及到精细的堆操作，俗称“堆风水”（Heap Feng Shui）。

5.1 理解SLUB分配器与堆布局

Linux内核默认使用SLUB分配器管理小块内存。同类大小的对象会被放在同一个“缓存”（kmem_cache）中，例如struct cred、struct file等都有自己专属的缓存。我们的目标是让一个cred结构体恰好分配在watch_queue溢出缓冲区的后面。

策略是：

耗尽目标缓存：通过大量创建进程并释放，让cred缓存被许多空闲对象填满。
塑造空洞：释放一些特定位置的cred对象，在空闲链表中制造“空洞”。
触发漏洞分配：触发漏洞，让内核分配那个“错位”的watch_queue缓冲区。由于SLUB的分配策略（如LIFO），我们希望能让这个缓冲区占用我们之前释放的某个cred对象之前或之后的位置。
覆盖相邻对象：当内核向watch_queue缓冲区写入通知时，溢出的数据就会覆盖相邻的cred对象。

5.2 构造利用代码的关键步骤

一个简化的利用框架可能包含以下模块：

1. 堆喷与布局模块：

// 伪代码思路 pid_t pids[SPRAY_NUM]; for (int i = 0; i < SPRAY_NUM; i++) { pids[i] = fork(); if (pids[i] == 0) { // 子进程挂起，保持cred结构体存活 pause(); exit(0); } } // 杀死部分子进程，在cred缓存中制造空洞 for (int i = 0; i < HOLE_NUM; i++) { kill(pids[i], SIGKILL); waitpid(pids[i], NULL, 0); }

2. 触发漏洞模块：就是前面PoC的强化版，但需要更精确地控制size参数，使得分配的内存块大小与cred对象的大小产生某种关联，增加相邻的概率。

3. 数据写入与覆盖模块：创建监视点并触发事件，让内核向漏洞缓冲区写入数据。我们需要构造特定的通知数据，使得溢出部分恰好能将后面cred的uid、gid、suid等字段覆盖为0。

struct watch_notification n = { .type = WATCH_TYPE_META, .subtype = WATCH_META_SKIP_NOTIFICATION, .info = 0, }; // 我们需要计算溢出偏移，然后填充足够多的数据，直到覆盖到cred结构体的特定字段。 // 这需要精确知道溢出点到目标cred字段的距离，这通常通过调试或信息泄露获得。

4. 权限检查与提权成功模块：覆盖完成后，在当前进程（攻击进程）中检查getuid()是否返回0。如果是，则提权成功，可以执行execve(“/bin/sh”, …)等操作。

5.3 利用过程中的挑战与应对

KASLR：内核地址随机化使得我们不知道cred缓存等地址。解决方案通常需要先进行信息泄露，例如利用另一个漏洞（如CVE-2022-0995本身可能结合其他缺陷）或通过侧信道攻击来获取内核地址。
SMAP/SMEP：现代CPU的安全特性，阻止内核直接执行用户空间代码或访问用户空间数据。我们的利用是覆盖内核的cred对象，不涉及执行用户代码，因此SMEP不影响。SMAP可能会影响我们通过用户空间缓冲区传递数据，但通常可以通过copy_from_user等合法路径绕过。
竞争条件：从设置watch_queue大小到写入通知，中间可能发生其他内核线程的分配操作，破坏我们的堆布局。这需要仔细设计时序，有时甚至需要用到内核锁相关的技巧或利用多核CPU的并行性来赢得竞争。
稳定性：真实的利用代码非常复杂，往往需要结合多个技巧，并且对内核版本和配置极其敏感。公开的Exploit通常只针对特定发行版的特定内核版本（例如Ubuntu 20.04 with kernel 5.13.0-xx-generic）。

重要警告：开发完整的、稳定的提权利用（Exploit）是一项极其复杂和专业的任务，超出了大多数复现学习的范围。我们的目标应该是理解漏洞原理、触发条件和潜在影响。切勿将不稳定的PoC或研究代码用于任何非法或未经授权的测试。

6. 漏洞修复与启示

Linux内核社区在5.17-rc1版本中修复了此漏洞。修复补丁的核心是在watch_queue_set_size函数中增加了更严格的检查：

检查用户传入的size参数是否超过一个合理的上限（WATCH_QUEUE_NOTE_SIZE_MAX）。
在计算页数时，使用check_mul_overflow或类似的辅助函数来检测乘法溢出。
确保计算出的总大小不会超过系统可分配的范围。

给开发者的启示：

整数溢出是内核的顽疾：在处理用户输入，特别是用于内存大小计算时，必须对加减乘除运算进行严格的边界检查，使用check_add_overflow、check_mul_overflow等安全辅助函数。
防御性编程：即使调用者（内核其他部分）被认为是可信的，对来自用户空间的数据也必须进行“不信任”处理，进行完备的校验。
代码审计重点：审计内核代码时，ioctl命令处理函数、涉及内存分配的系统调用实现，是寻找整数溢出、边界检查缺失的重灾区。

给安全研究员的启示：

关注核心机制：像watch_queue这种较新加入的内核子系统，在实现初期可能考虑不周，是漏洞的富矿。
从补丁反推漏洞：学习分析内核git commit log中的安全修复补丁，是快速定位和理解漏洞的高效方法。
环境构建能力是关键：熟练使用QEMU+GDB构建内核调试环境，是进行底层漏洞研究的必备技能，其重要性不亚于漏洞分析本身。

复现CVE-2022-0995的过程，就像一次深入内核腹地的探险。从环境搭建的琐碎，到PoC触发崩溃的兴奋，再到分析利用可能性的沉思，每一步都加深了对操作系统底层运行机制的理解。这种漏洞或许不会在公开世界掀起波澜，但它所代表的漏洞模式和攻防思路，却是每一个系统安全研究者需要掌握的基石。最后，再次强调，所有相关实验都必须在隔离的虚拟环境中进行，并始终遵循负责任的漏洞披露和研究伦理。

查看全文

http://www.gsyq.cn/news/1583409.html