当前位置：首页 > news >正文

Does Model Size Matter? A Comparison of Small and Large Language Models for Requirements Classifi...

news 2026/7/4 4:50:21

一、文章主要内容总结

该研究聚焦需求工程（RE）中的需求分类任务，核心探讨小型语言模型（SLMs）与大型语言模型（LLMs）的性能差异。研究选取8个模型（5个7-8B参数的SLMs：Qwen2-7B、Falcon-7B等；3个1-2万亿参数的LLMs：GPT-5、Claude-4等），在PROMISE、PROMISE Reclass、SecReq三个公开数据集上开展二进制分类实验，采用思维链（CoT）+少样本提示策略，以精确率（P）、召回率（R）、F1分数为核心指标，并通过Scheirer-Ray-Hare等统计检验验证结果。

关键发现包括：

性能差异：LLMs的平均F1分数仅比SLMs高2%，且该差异无统计学意义；SLMs在部分场景表现更优（如PROMISE Reclass数据集上的召回率显著高于LLMs）。
影响因素：数据集特性对模型性能的影响远大于模型规模（数据集的效应量为0.63，模型类型仅为0.04），不同数据集上模型性能呈现明显层级（SecReq表现最佳，PROMISE Reclass最差）。
实用价值：SLMs具备本地部署、隐私安全、低计算成本等优势，在需求分类任务中可作为LLMs的有效替代方案。

二、文章创新点

首次系统性对比SLMs与LLMs在需求分类任务中的性能，填补了两类模型在RE领域性能差异的研究空白。
揭示了“模型规模对需求分类准确性影响有限，数据集特性更为关键”的核心结论，挑战了“模型越大性能越好”的普遍认知。
提供了可复现的实验框架（含数据集、提示策略、评估流程），并公开复

http://www.gsyq.cn/news/1631526.html

相关文章：

品牌食品被指存在异物：三维协同证据体系构建

Systemd和Systemctl的关系及相关理解

E-Hentai漫画收藏神器：一键打包下载全攻略

如何让产品参与测试/验证

Linux:进程信号

Pipeline-聚类质心提取

devkit-pipeline最佳实践：企业级开发团队的10个经验分享

一人公司技术栈指南：VIbecoding之后，为什么一定要重视 BaaS （后端即服务）

无人机航拍小目标检测系统无人机监控无人机安防巡检无人机交通管理应用

Ubuntu 26.04下实现无边框全屏窗口：Wayland与X11的实战指南

5分钟快速上手：E-Hentai漫画下载工具完全指南

TRAE Work（工作版）vs Code（编程 / 代码版）完整区别

【YOLOv12多模态融合改进】| TGRS 2025 HFFE分层特征融合编码器双模态注意力加权 + 跨尺度对齐融合，强化弱小目标多模态特征互补

扣子3.0来了：从“单兵作战“到“AI团队操作系统“，一个300+技能创作者的深度体感

ChatGPT Plus 和 Pro 到底怎么选？不要盲目升级

Python之struvolpy包语法、参数和实际应用案例

戴森球计划工厂蓝图库：3步打造高效星际工厂的革新性方案

LangChain 框架上手难吗，看完这几个实战案例你就懂了

【MATLAB例程|车联网6】考虑调头车流扰动与网联车辆实时感知信息的干线多交叉口 FAC-CV 全感应协调控制仿真与性能对比分析

软件测试入门——第二十课（接口测试基础）

普通人想靠 AI 大模型找工作，这几个简历项目哪个最加分

Gemini 转 Word 工具推荐？AI 导出鸭硬核测评，告别格式乱码

【JavaScript 标签（Label）完全指南：语法、使用场景、作用与意义｜告别多层循环跳转难题（面试必刷）】

dirmap高级Web目录扫描工具：从原理到实战的完整指南

NAATI翻译认证驾照如何办理？澳洲自驾的朋友速看！

我用了十年终端，今天才真正学会使用它

【LE Audio】CSIP精讲[3]: 设备端协同集标识的核心实现与落地要点

大模型科研写作能力盲测：Gemini 2.0作为裁判的五维评估实践

o3与o3-pro模型选型指南：成本、可靠性与长上下文实战

OpenClaw 构建报错 FATAL ERROR: Reached heap limit - JavaScript heap out of memory 的解决方案