当前位置：首页 > news >正文

融合LLM与资源监控的模糊测试：超越崩溃检测的软件行为分析框架

news 2026/5/26 13:29:19

1. 项目概述：超越崩溃检测的软件行为分析

在软件安全测试领域，模糊测试（Fuzzing）早已成为挖掘漏洞的利器。我们通常的做法是，向目标程序海量投喂随机或半随机的输入，然后像个猎人一样，屏息凝神地等待程序崩溃——那一声“Segmentation fault”或“Access Violation”的报错，往往意味着一个潜在的安全漏洞被成功触发。这种基于代码覆盖率的传统方法，在过去十几年里成效卓著，帮助发现了无数个导致程序崩溃的严重缺陷。

然而，作为一名长期浸淫在安全测试一线的工程师，我越来越清晰地意识到一个被长期忽视的“盲区”：并非所有漏洞都会以程序崩溃这种戏剧性的方式宣告自己的存在。想象一下，一个恶意构造的输入没有让程序崩溃，却悄无声息地让CPU占用率飙升到100%，或者让内存使用量如脱缰野马般增长，最终导致服务拒绝（DoS）。又或者，它通过微妙的资源使用模式差异，泄露了本应保密的数据（侧信道攻击）。这些“非崩溃类漏洞”同样致命，却因为不触发崩溃信号，常常在传统的覆盖率导向的模糊测试中成为漏网之鱼。

这正是我们团队近期工作的核心出发点：如何突破覆盖率指标的局限，更全面、更量化地刻画和评估软件在异常输入下的真实行为？我们不再仅仅满足于知道“代码的哪条路径被执行了”，我们更想知道“程序在这条路径上运行时，消耗了多少系统资源，呈现出何种独特的状态模式”。为此，我们构建并验证了一个全新的统计框架，它深度融合了资源使用度量、基于大型语言模型（LLM）的输入语义分析以及资源状态异常检测。简单来说，我们试图回答三个核心问题：这个输入是否足够独特（语义层面）？它是否引发了异常的资源消耗（系统层面）？它是否将程序带入了一个前所未有的资源状态组合（行为层面）？

2. 核心思路与框架设计：一个三维评分模型

我们的核心思路是将软件行为分析从一个一维的“是否覆盖”问题，拓展到一个多维的、可量化的评估空间。传统的模糊测试评估往往只关注代码覆盖率这个单一维度，这就像只通过“是否到过某个城市”来评价一次旅行的价值，而完全忽略了旅途中的消费水平、所见所闻的独特性等更丰富的维度。

我们的框架旨在构建一个更立体的评估体系，其核心是一个由三个独立评分项构成的凸组合公式：

S = (α * E_anom + β * R_usage + γ * D_anom) / (α + β + γ)

这个公式就是整个框架的引擎。其中，S是最终的综合评分，α,β,γ是可根据测试目标调整的权重系数。下面我来逐一拆解这三个核心组件：

2.1 输入编码异常度：从字符到语义的度量

第一个组件E_anom，衡量的是输入样本在语义和句法层面的独特性。它的核心思想是：两个在表面上看起来不同的输入（比如“admin”和“administrator”），在程序的逻辑处理中可能走的是同一条路径；而两个看起来相似的输入，却可能因为微妙的差异触发完全不同的行为。因此，我们需要一个能理解程序输入“语义”的模型。

实操要点：

模型选择：我们没有使用通用的文本嵌入模型（如BERT），而是选择了专门针对代码进行预训练的CodeT5+模型。原因在于，程序输入（尤其是用于Fuzzing的输入）往往具有特定的语法结构（如JSON、SQL片段、文件头字节），CodeT5+这类代码语言模型能更好地捕捉这种结构特征。
处理流程：
- 分词：使用RoBERTa的字节对编码（BPE）分词器将输入字符串转换为词元（Token）序列。BPE对于处理代码、二进制数据片段等非标准自然语言文本尤其有效。
- 嵌入生成：将词元序列送入CodeT5+模型，获取一个固定维度（如256维）的语义嵌入向量。这个向量可以理解为输入在“程序理解”空间中的坐标。
- 相似度计算：使用Facebook的FAISS库为所有输入的嵌入向量构建高效的最近邻搜索索引。对于每个输入，计算其与数据集中其他所有样本的余弦距离，并取前K个（我们设定K=100）最近邻距离的平均值作为E_anom值。距离越大，说明该输入在语义上越独特，越有可能触发程序中罕见的逻辑分支。

注意：这里的关键是使用余弦距离而非欧氏距离。余弦距离关注的是向量方向的差异，对向量的绝对大小（即嵌入的“强度”）不敏感，这更适合比较由Transformer模型生成的、维度通常经过归一化的嵌入向量。

2.2 缩放资源使用率：量化系统的“负担”

第二个组件R_usage，直接量化程序执行该输入时的资源消耗强度。我们关注的资源类型包括但不限于：

CPU时间：用户态+内核态CPU时间。
内存：峰值内存使用量、最终内存驻留集大小。
I/O：读/写的字节数、系统调用次数。
执行特征：函数调用次数、产生的输出大小、输出字节的香农熵（衡量输出的随机性或信息量）。

实操要点：

数据采集与隔离：为了获得准确的度量，必须保证每次程序执行的环境是隔离且一致的。我们使用Linux的taskset命令将每次测试绑定到独立的CPU核心上，并确保有充足的空闲内存，以避免进程间资源争用带来的噪声。
归一化处理：不同资源的数值量纲差异巨大（例如，函数调用次数可能上万，而CPU利用率在0-100之间）。直接相加没有意义。因此，我们对每类资源进行最小-最大归一化，将每个观测值r转换到[0, 1]区间：r' = (r - r_min) / (r_max - r_min)。这里的r_min和r_max是基于整个测试数据集计算得到的。
加权求和：归一化后，我们可以根据测试重点为不同资源分配权重C_i（例如，更关注内存泄漏则提高内存权重），计算加权平均：R_usage = Σ(C_i * r'_i) / ΣC_i。R_usage值越高，表明该输入消耗的系统资源越多，越有可能触发资源耗尽型漏洞。

2.3 资源状态距离异常度：发现行为的“孤岛”

第三个组件D_anom，是最具创新性也最复杂的一环。它不单独看某个资源的消耗量，而是关注程序执行后所处的整体资源状态向量的独特性。其目标是发现那些将程序带入“罕见状态组合”的输入。

实操要点：

状态向量构建：将采集到的所有资源度量（连续值）和分类数据（如抛出的异常类型）组合成一个多维向量。连续值（如CPU使用率）被分箱量化（例如，使用pandas的pd.cut分成5个等宽区间），转换为离散的类别标签。分类数据（如错误类型）则进行标签编码。最终，每个输入对应一个由离散类别编号组成的“资源状态指纹”。
状态空间中的异常检测：同样使用FAISS库，但这次计算的是状态向量之间的L2距离（欧氏距离）。对于每个输入的状态向量，计算其与数据集中其他所有样本状态向量的L2距离，并取前K个最近邻距离的平均值作为D_anom值。D_anom值越高，意味着该输入导致程序进入了一个资源状态“孤岛”，即其周围几乎没有其他输入能产生类似的状态组合。这可能对应着程序中一个极其边缘、测试不足的逻辑分支，或者是一种复杂的资源交互漏洞。

2.4 框架整合与权重调参

将E_anom,R_usage,D_anom通过凸组合（系数和为1）合并为最终评分S，其优势在于：

可解释性：分析师可以通过调整α,β,γ来灵活地引导测试方向。例如，想寻找消耗内存巨大的输入，就调高β；想探索程序最生僻的行为角落，就调高γ。
独立性保障：我们通过肯德尔τ系数检验，确保这三个组件在统计上是基本独立的。这意味着它们从不同维度提供了互补信息，组合起来的信息量是最大化的。

3. 实验设计与核心发现：LLM作为模糊测试员的潜力与局限

为了验证框架的有效性并回答开篇的研究问题，我们设计了一个大规模的实验。我们选取了50个具有安全相关性的Python库函数（如pandas.read_csv,PIL.Image.open,markdown2.markdown等），构建了超过500万个输入样本的语料库。输入来源包括：

传统模糊测试器：以Atheris（基于libFuzzer）为代表，通过随机变异生成输入。
随机生成：完全随机的字节流。
大型语言模型：我们使用了当时主流的商业LLM API，包括OpenAI的GPT-3.5和GPT-4，Anthropic的Claude-Instant和Claude-Opus，以及Google的Gemini-1.0。我们采用标准化的提示词工程，要求模型生成“可用于测试[函数名]的、有效的、多样的、可能异常的输入”。

3.1 RQ1：框架的有效性验证

首先，我们验证了框架的三个评分组件是否满足设计预期。

独立性检验：肯德尔τ检验显示，E_anom、R_usage、D_anom两两之间的相关性系数绝大多数接近0（均值在0.1以下）。这表明它们确实捕捉了行为的不同侧面。一个有趣的发现是，R_usage和D_anom在某些函数中呈现微弱的负相关，这意味着高资源消耗的状态往往并不“独特”（很多输入都能导致高负载），而一些独特的资源状态组合可能并不消耗太多资源。这印证了分别度量它们的必要性。
分布识别能力：我们使用Kolmogorov-Smirnov（KS）检验和自助重采样法，验证了不同输入源（如Atheris两次独立运行、随机数据、LLM集合）产生的评分分布具有显著差异。同时，相同来源的多次运行产生的分布则非常相似。这说明我们的框架能够清晰地区分不同生成方法所诱导的程序行为“指纹”。

3.2 RQ2：商业LLM输出的同质化现象

一个令人惊讶又似乎在意料之中的发现是：不同厂商的主流商业LLM（GPT-3.5/4, Claude-Instant/Opus, Gemini）生成的测试输入，在诱导程序行为上表现出高度的相似性。

统计证据：当我们比较任意两个LLM产生的样本集在S、E_anom、R_usage、D_anom上的分布时，KS检验在很多情况下无法拒绝“它们来自同一分布”的零假设。平均来看，约有33%的统计检验认为不同LLM的输出行为无显著差异。
案例分析：以测试pandas.read_csv函数为例，不同LLM生成的CSV样例高度雷同，基本都是“a,b,c\n1,2,3\n4,5,6”或“a,b,c\nd,e,f\ng,h,i”这种最简单的形式。它们都能成功解析，因此触发的资源状态（内存分配、CPU使用）也大同小异。
原因推测：这种同质化很可能源于训练数据的重叠。这些顶级LLM都在互联网规模的、高度重合的代码库（如GitHub）和文本数据上进行训练。当被要求“生成一个测试用例”时，它们倾向于从训练数据中提取出最常见、最规范的“示例”模式，导致输出多样性受限。这提示我们，单纯依赖多个商业LLM来增加测试输入的多样性，其收益可能是递减的。

3.3 RQ3：LLM vs. 传统Fuzzing，谁是更好的测试员？

那么，LLM生成的输入能否替代或补充传统模糊测试呢？我们的答案是：互补远大于替代，且效果因目标函数的结构化程度而异。

LLM的优势场景：高度结构化输入。对于需要特定格式输入的函数，如解析YAML、正则表达式、HTML、电话号码或特定二进制文件头（如图片）的函数，LLM展现出了压倒性优势。传统模糊器通过随机变异，极难在有限时间内生成一个语法有效的YAML字符串或一个结构完整的PNG文件头。而LLM凭借其代码和格式知识，可以“秒出”一个合法甚至复杂的有效输入，从而快速覆盖到那些需要正确格式才能进入的深层代码逻辑。在我们的排名中，这类函数的Top得分样本大多来自LLM。
传统Fuzzing的优势场景：探索资源边界与怪异状态。在触发极端的资源消耗（高R_usage）和发现罕见的资源状态组合（高D_anom）方面，基于变异的传统模糊测试器（如Atheris）通常更胜一筹。LLM倾向于生成“合理”的输入，而模糊测试器通过无拘无束的随机比特翻转，能够创造出极其怪异、违反任何格式规范的输入，这些输入往往能将程序推到其资源处理逻辑的极限和角落，从而暴露出更多资源型漏洞。
GPT-4的细微优势：在所有测试的LLM中，GPT-4在生成输入的多样性上略胜一筹。例如，在为PIL.Image.open生成图片数据时，GPT-4不仅会生成标准像素数据，偶尔还会加入一些非常规的字节序列或模拟损坏的文件头，导致其产生的E_anom和D_anom分布更广。而Claude-Opus的输出则相对保守和一致。这提示我们，即使同是LLM，模型能力和训练数据的细微差异也会直接影响其作为测试输入生成器的“探索性”。

核心结论：最有效的策略是混合测试。用LLM快速生成大量有效的、结构化的输入，作为“种子池”，迅速覆盖需要正确语法才能触发的代码区域。然后，以这些LLM生成的输入作为优质种子，交给传统模糊测试器进行变异。模糊测试器会在这些“正确”输入的基础上，进行随机破坏和组合，从而高效地探索其周围的输入空间和资源状态空间，兼具了深度和广度。

4. 实操指南：如何构建你自己的行为分析框架

理论讲完了，我们来点干货。如果你想在自己的项目或安全测试流程中应用这套思路，可以遵循以下步骤。我们的工具已经开源，你可以基于此进行定制。

4.1 环境搭建与工具链

核心依赖：
- Python 3.8+：我们的框架主要用Python实现。
- 资源监控：psutil（跨平台资源监控）、tracemalloc（Python内存跟踪）、time/perf_counter（高精度计时）。
- 嵌入模型：Hugging Facetransformers库，加载Salesforce/codet5p-110m-embedding模型。确保有足够的GPU内存或使用CPU模式（较慢）。
- 相似度搜索：faiss-cpu或faiss-gpu库，用于高效的最近邻搜索。
- 统计计算：scipy（用于Kendall τ和KS检验）、numpy、pandas。
隔离执行环境：这是保证R_usage和D_anom度量准确性的基石。对于每个待测输入，我们使用subprocess.Popen启动一个独立的Python子进程来运行目标函数，并通过psutil.Process对象关联资源监控。关键的一步是使用taskset（Linux）或affinity（Windows）将子进程绑定到特定的CPU核心，避免上下文切换和核心间干扰。

4.2 数据采集管道实现

你需要编写一个测试线束，它负责循环读取输入样本，执行监控，并记录结果。

import subprocess import psutil import tracemalloc import time def instrumented_run(target_function, input_sample, cpu_core_id): """ 在隔离环境中执行目标函数并采集资源数据。 """ # 启动追踪 tracemalloc.start() start_time = time.process_time() # 关键：通过taskset绑定CPU核心 cmd = ['taskset', '-c', str(cpu_core_id), 'python', '-c', f'import sys; from target_module import {target_function}; ' f'result = {target_function}({repr(input_sample)}); print(result)'] proc = subprocess.Popen(cmd, stdout=subprocess.PIPE, stderr=subprocess.PIPE) ps_proc = psutil.Process(proc.pid) # 监控循环 peak_memory = 0 while proc.poll() is None: try: mem_info = ps_proc.memory_info() peak_memory = max(peak_memory, mem_info.rss) # 驻留集大小 # 可在此记录CPU时间百分比等 time.sleep(0.001) # 适当采样间隔 except (psutil.NoSuchProcess, psutil.AccessDenied): break stdout, stderr = proc.communicate() end_time = time.process_time() current, peak = tracemalloc.get_traced_memory() tracemalloc.stop() # 组装资源记录 resource_record = { 'cpu_time': end_time - start_time, 'peak_memory_bytes': peak_memory, 'tracemalloc_peak': peak, 'output_size': len(stdout), 'output_entropy': calculate_shannon_entropy(stdout), # 需实现 'error_type': None if proc.returncode == 0 else classify_error(stderr), 'function_calls': None, # 需通过sys.settrace或其它profiler获取 } return resource_record, stdout, stderr

4.3 评分计算与结果分析

采集完所有样本的资源数据后，进入离线分析阶段。

计算E_anom：
- 将所有输入样本通过CodeT5+模型转换为嵌入向量。
- 使用FAISS构建一个IndexFlatIP（内积索引，用于余弦相似度）或IndexFlatL2（用于L2距离，需先对向量做L2归一化）。
- 对每个向量，搜索其Top 100近邻，计算平均距离。
计算R_usage：
- 对每种资源（CPU时间、内存等）在整个数据集上计算最小值和最大值。
- 对每个样本的每种资源值进行最小-最大归一化。
- 根据你的关注点设定权重C_i（例如，内存安全测试中，内存权重设为2，CPU权重设为1），计算加权平均。
计算D_anom：
- 将归一化后的连续资源值分箱（如5箱）。将错误类型等分类变量标签编码。
- 将每个样本的所有分箱编号和标签编码拼接成一个整数向量，作为其“资源状态向量”。
- 使用FAISS的IndexFlatL2索引这些状态向量。
- 对每个状态向量，搜索其Top 100近邻，计算平均L2距离。
综合评分与排序：设定α,β,γ（例如，初始可设为1:1:1），计算每个样本的最终得分S。根据S降序排列，排名靠前的样本就是那些在输入独特性、资源消耗和状态新奇度上综合表现最佳的“高价值”测试用例。

4.4 避坑经验与调优建议

资源监控的准确性：time.process_time()测量的是当前进程的CPU时间，比time.time()更准确。对于内存，tracemalloc能精确追踪Python对象分配，而psutil获取的是整个进程的RSS，两者结合更全面。注意，过于频繁的监控（如每秒采样1000次）会引入显著性能开销，扭曲真实的资源使用数据。通常10-100毫秒的间隔是合理的。
嵌入模型的选择与微调：预训练的CodeT5+模型是一个很好的起点。但如果你的测试目标是非常特定领域的语言（如某种网络协议报文、自定义配置文件），可以考虑在相关的小规模代码/文本语料上对模型进行轻量级的微调，以提升其在该领域输入语义理解的准确性。
FAISS索引参数：对于百万级样本，IndexFlatL2这种暴力搜索索引虽然精确但可能较慢。可以考虑使用IndexIVFFlat或IndexHNSWFlat这类近似搜索索引来加速，但会牺牲少量精度。需要在精度和速度之间权衡。
权重的动态调整：不要固守一组权重。可以采用多轮迭代策略：第一轮用均衡权重发现一批有趣样本；分析这些样本的特点，如果发现很多高R_usage但D_anom很低的样本（即常见的高负载），下一轮可以调高γ，鼓励寻找更多独特状态；反之亦然。
LLM提示词工程：直接让LLM“生成测试输入”效果有限。更有效的提示词应包含约束和引导，例如：“生成10个用于测试parse_json函数的输入。其中5个必须是语法有效的JSON，但包含极端嵌套（深度>10）或超大字符串（长度>10000）；另外5个是故意无效的JSON，在语法错误的边缘，例如缺失引号、多余的逗号等。” 这种引导能更好地利用LLM的知识来探索特定的输入子空间。

5. 常见问题与扩展思考

Q1：这个框架对测试非Python程序是否有效？A：核心思想是普适的。对于C/C++、Go、Rust等编译型语言，资源采集方式需要调整（例如使用perf、Valgrind、eBPF等系统级工具），输入嵌入模型可能需要替换或重新训练（例如使用针对该语言预训练的模型，或使用更通用的字节级模型如Byte-level BPE）。资源状态向量的构建和评分计算逻辑完全可以复用。

Q2：计算开销是否很大？特别是嵌入模型推理和FAISS搜索。A：是的，这是本方法的主要开销。对于大规模语料库，嵌入模型推理是瓶颈。建议：

使用GPU加速推理。
对输入进行去重或采样，避免对高度相似的输入重复计算。
考虑使用更轻量级的句子嵌入模型（如all-MiniLM-L6-v2）作为近似，但会损失对代码结构的理解。
FAISS索引构建和搜索对于百万级向量是高效的，可以接受。

Q3：如何将这个框架集成到现有的CI/CD流水线中？A：不建议对每次代码提交都进行全量分析。可以将其作为定期（如每晚）的深度安全扫描环节。流程可以是：1) 从版本库拉取最新代码；2) 对关键函数/模块，运行混合模糊测试（LLM种子+传统Fuzzer），收集数万至百万级样本；3) 运行本分析框架，生成综合评分报告；4) 聚焦分析Top 100的异常样本，人工或通过规则检查其是否触发了真正的资源泄漏、异常高负载或可疑状态。可以将高R_usage或高D_anom的样本及其资源画像，作为疑似漏洞报告给开发者。

Q4：除了安全测试，这个框架还能用在什么地方？A：其应用场景可以很广：

性能回归测试：比较新旧版本软件在相同输入集上的R_usage分布，快速定位引入性能退化的代码变更。
软件行为画像：为软件构建一个“正常行为”的资源状态基线（D_anom分布）。在生产环境中持续监控，如果某个输入导致了远离基线的资源状态（高D_anom），即使没有崩溃，也可能意味着遇到了前所未见的边缘情况或正在遭受低速率DoS攻击。
测试用例优先级排序：在庞大的回归测试集中，使用本框架对测试用例进行评分，优先执行那些能触发更独特、更高资源消耗行为的测试，提高测试效率。

最后的体会：这项工作让我深刻认识到，软件安全测试正在从“寻找导致崩溃的输入”向“理解并评估输入所诱导的完整程序行为”演进。LLM的加入不是要取代传统的模糊测试，而是为它装上了一副“知识的眼镜”，让它能更智能地探索那些需要特定结构才能进入的代码区域。而资源度量和行为分析，则为我们提供了评估测试效果、发现隐蔽漏洞的新的“度量衡”。将这三者结合，我们或许能构建出下一代更智能、更全面的自动化软件分析系统。未来的一个有趣方向是，利用这个评分框架作为反馈信号，来动态指导LLM的提示词生成或传统Fuzzer的变异策略，形成一个自我进化的测试循环。

查看全文

http://www.gsyq.cn/news/1391785.html