当前位置: 首页 > news >正文

Does Model Size Matter? A Comparison of Small and Large Language Models for Requirements Classifi...

一、文章主要内容总结

该研究聚焦需求工程(RE)中的需求分类任务,核心探讨小型语言模型(SLMs)与大型语言模型(LLMs)的性能差异。研究选取8个模型(5个7-8B参数的SLMs:Qwen2-7B、Falcon-7B等;3个1-2万亿参数的LLMs:GPT-5、Claude-4等),在PROMISE、PROMISE Reclass、SecReq三个公开数据集上开展二进制分类实验,采用思维链(CoT)+少样本提示策略,以精确率(P)、召回率(R)、F1分数为核心指标,并通过Scheirer-Ray-Hare等统计检验验证结果。

关键发现包括:

  1. 性能差异:LLMs的平均F1分数仅比SLMs高2%,且该差异无统计学意义;SLMs在部分场景表现更优(如PROMISE Reclass数据集上的召回率显著高于LLMs)。
  2. 影响因素:数据集特性对模型性能的影响远大于模型规模(数据集的效应量为0.63,模型类型仅为0.04),不同数据集上模型性能呈现明显层级(SecReq表现最佳,PROMISE Reclass最差)。
  3. 实用价值:SLMs具备本地部署、隐私安全、低计算成本等优势,在需求分类任务中可作为LLMs的有效替代方案。

二、文章创新点

  1. 首次系统性对比SLMs与LLMs在需求分类任务中的性能,填补了两类模型在RE领域性能差异的研究空白。
  2. 揭示了“模型规模对需求分类准确性影响有限,数据集特性更为关键”的核心结论,挑战了“模型越大性能越好”的普遍认知。
  3. 提供了可复现的实验框架(含数据集、提示策略、评估流程),并公开复
http://www.gsyq.cn/news/1631526.html

相关文章:

  • 品牌食品被指存在异物:三维协同证据体系构建
  • Systemd和Systemctl的关系及相关理解
  • E-Hentai漫画收藏神器:一键打包下载全攻略
  • 如何让产品参与测试/验证
  • Linux:进程信号
  • Pipeline-聚类质心提取
  • devkit-pipeline最佳实践:企业级开发团队的10个经验分享
  • 一人公司技术栈指南:VIbecoding之后,为什么一定要重视 BaaS (后端即服务)
  • 无人机航拍小目标检测系统 无人机监控 无人机安防巡检 无人机交通管理应用
  • Ubuntu 26.04下实现无边框全屏窗口:Wayland与X11的实战指南
  • 5分钟快速上手:E-Hentai漫画下载工具完全指南
  • TRAE Work(工作版)vs Code(编程 / 代码版)完整区别
  • 【YOLOv12多模态融合改进】| TGRS 2025 HFFE分层特征融合编码器 双模态注意力加权 + 跨尺度对齐融合,强化弱小目标多模态特征互补
  • 扣子3.0来了:从“单兵作战“到“AI团队操作系统“,一个300+技能创作者的深度体感
  • ChatGPT Plus 和 Pro 到底怎么选?不要盲目升级
  • Python之struvolpy包语法、参数和实际应用案例
  • 戴森球计划工厂蓝图库:3步打造高效星际工厂的革新性方案
  • LangChain 框架上手难吗,看完这几个实战案例你就懂了
  • 【MATLAB例程|车联网6】考虑调头车流扰动与网联车辆实时感知信息的干线多交叉口 FAC-CV 全感应协调控制仿真与性能对比分析
  • 软件测试入门——第二十课(接口测试基础)
  • 普通人想靠 AI 大模型找工作,这几个简历项目哪个最加分
  • Gemini 转 Word 工具推荐?AI 导出鸭硬核测评,告别格式乱码
  • 【JavaScript 标签(Label)完全指南:语法、使用场景、作用与意义|告别多层循环跳转难题(面试必刷)】
  • dirmap高级Web目录扫描工具:从原理到实战的完整指南
  • NAATI翻译认证驾照如何办理?澳洲自驾的朋友速看!
  • 我用了十年终端,今天才真正学会使用它
  • 【LE Audio】CSIP精讲[3]: 设备端协同集标识的核心实现与落地要点
  • 大模型科研写作能力盲测:Gemini 2.0作为裁判的五维评估实践
  • o3与o3-pro模型选型指南:成本、可靠性与长上下文实战
  • OpenClaw 构建报错 FATAL ERROR: Reached heap limit - JavaScript heap out of memory 的解决方案