当前位置：首页 > news >正文

LLM 选择指南：什么场景用小模型，什么场景上大模型

news 2026/7/1 15:17:41

LLM 选择指南：什么场景用小模型，什么场景上大模型本文作者：15年经验资深架构师，AI技术博主，专注于大模型落地与成本优化，累计帮助30+企业完成LLM选型与落地，平均降本75%。前言2024年的今天，大模型已经从「炫技概念」变成了各行各业的「生产工具」：客服机器人、内容生成、代码辅助、风控审核…几乎所有企业都在讨论如何接入LLM。但我见过太多团队踩了同一个坑：盲目追大，一上来就用GPT-4、千亿参数闭源大模型，最后一算成本吓死人，准确率还不如一个微调后的7B小模型。我之前服务过一家电商客户，一开始做商品属性补全，直接用了GPT-3.5 Turbo，每个月API成本超过4万，准确率只有92%，后来换了微调后的Qwen2-7B小模型，每个月服务器成本不到3000元，准确率还提升到了94%，ROI直接翻了12倍。这篇文章我会把我多年的LLM选型经验全部公开，从核心概念、选型框架、数学模型、实战案例、最佳实践多个维度，给你讲透：到底什么场景该用小模型，什么场景必须上大模型。全文约12000字，建议收藏后慢慢读，所有工具和代码都可以直接复用。一、核心概念与问题背景1.1 什么是大模型？什么是小模型？很多人对大小模型的认知还停留在「参数规模」上，觉得参数过了100B就是大模型，小于10B就是小模型，这个认知已经过时了。现在MoE（混合专家）架构普及，总参数和实际激活参数差好几倍，比如Mixtral 8x7B总参数47B，但每次推理只激活12B左右的参数，推理成本和13B的稠密模型差不多，能力却接近70B稠密模型。我们现在对大小模型的定义是结合激活参数规模、推理成本、能力边界三个维度来划分：模型类型核心定义典型代表小模型激活参数20B，推理成本是大模型的1/50以下，可在消费级显卡/端侧设备部署，垂直领域微调性价比极高Qwen2-7B、Llama3-8B、Phi-3-mini、端侧1B/3B模型中模型激活参数20B-50B，推理成本是大模型的1/10左右，平衡通用能力和成本，适合中等复杂度场景Qwen2-14B、Mixtral 8x7B、Llama3-13B大模型激活参数50B，通用能力极强，复杂推理能力突出，推理成本高，本地化部署门槛极高GPT-4o、Claude 3 Opus、Qwen2-72B、Llama3-70B注意：本文讨论的「小模型」特指经过对齐、具备基础通用能力的开源LLM，不包括早期的领域专用小模型。1.2 问题背景：90%的大模型选型都错了我做过一个调研，国内200家已经落地LLM的企业里，72%的团队最初选型时优先选择了闭源大模型API，其中61%的团队在上线3个月后因为成本、合规、延迟问题，把至少一半的场景切换到了开源小模型。常见的选型误区包括：成本认知错误：以为大模型API很便宜，实际上高频场景下，每个月的API成本是本地化小模型的10-100倍；能力匹配错位：垂直场景不需要通用能力，大模型反而因为知识太杂容易出现幻觉，准确率不如微调后的小模型；合规风险忽略：金融、医疗、政务等场景数据不能出域，公有大模型API根本无法满足合规要求；延迟要求低估：端侧、实时交互场景要求延迟在200ms以内，公有大模型光网络延迟就有300ms，根本无法满足。1.3 问题描述：选型的核心矛盾LLM选型的核心矛盾是**「业务需求、能力要求、成本约束」三者的平衡**：你要准确率高、通用能力强，就要接受大模型的高成本、高延迟、合规风险；你要成本低、延迟低、数据安全，就要接受小模型通用能力弱、复杂推理差的短板。没有完美的模型，只有最合适的模型，选型的核心目标是ROI（投入产出比）最大化。二、核心要素与概念对比2.1 大小模型的核心要素组成小模型核心要素低部署成本：4bit量化后的7B模型只需要16G显存就能跑，一张几千块的消费级RTX3090就能承载日均10万请求；极低推理成本：本地化部署后，可变成本几乎只有电费，每千token成本不到0.001元，是GPT-3.5的1/100；低延迟：单token推理延迟不到50ms，端侧部署甚至可以到10ms以内，完全满足实时交互需求；高合规性：完全本地化部署，数据不会出域，满足金融、医疗等强监管场景的要求；垂直场景适配快：只需要1000-5000条垂直领域样本做LoRA微调，准确率就能超过通用大模型。大模型核心要素强通用能力：不需要微调就能处理法律、医疗、财务、编程等多个领域的问题，跨领域迁移能力极强；强复杂推理能力：可以处理多步逻辑推理、数学题求解、复杂合同审查、代码Debug等需要深度思考的任务；强少样本/零样本能力：只需要给几个示例甚至不给示例，就能完成任务，适合冷启动场景；多模态能力成熟：闭源大模型的图文理解、视频理解、语音交互能力已经非常成熟，不需要额外训练。2.2 核心属性维度对比我整理了一份详细的大小模型对比表，你可以直接对照自己的场景来选：对比维度小模型（20B激活参数）中模型（20B-50B激活参数）大模型（50B激活参数）典型代表Qwen2-7B、Llama3-8B、Phi-3-miniQwen2-14B、Mixtral 8x7B、Llama3-13BGPT-4o、Claude 3 Opus、Qwen2-72B推理成本（相对值）15-1050-100每千token实际成本（元）0.001-0.0050.01-0.050.1-0.5单token推理延迟（A10G部署）50ms100-200ms500-1000ms本地化部署显存要求（4bit量化）16G40G80G*2本地化部署月度成本（元）2000-50008000-2000050000+通用推理能力弱，仅能处理简单逻辑、单轮任务中等，可处理中等复杂度多轮任务强，可处理复杂多步推理、跨领域任务垂直领域准确率（微调后）90%-95%，超过通用大模型93%-97%，行业顶尖水平85%-92%，通用知识易有幻觉微调所需样本量1000-5000条5000-10000条10万+条，微调成本极高数据合规性高，完全本地化，数据不出域中，可本地化，硬件成本较高低，公有API无法保证数据安全，本地化成本极高端侧部署支持支持，1B/3B模型可直接跑在手机上不支持完全不支持冷启动成本高，需要微调数据和研发资源中等低，直接调用API即可2.3 概念关系实体图我们用ER图来表示选型过程中各个实体的关系：渲染错误:Mermaid 渲染失败: Parse error on line 14: ... enum 模型类型小/中/大 float 单 ----------------------^ Expecting 'ATTRIBUTE_WORD', got '/'三、数学模型与选型公式很多人选型全靠拍脑袋，其实可以用数学公式来精准计算ROI，做出最优选择。我整理了三个核心公式，你可以直接套用。3.1 总成本计算公式LLM的总成本包括可变成本（按token收费的API费用、电费等）和固定成本（服务器采购、运维、微调成本等）：C=Cvar+Cfix=N×L×P1000+Cfix C = C_{var} + C_{fix} = \frac{N \times L \times P}{1000} + C_{fix}C=Cvar+Cfix=1000N×L×P+Cfix其中：CCC是月度总成本（单位：元）NNN是日均请求量LLL是平均每个请求的token数（输入+输出）PPP是每千token的推理成本（单位：元）CfixC_{fix}Cfix是月度固定成本（服务器、运维、微调成本平摊）举个例子：日均1万请求，每个请求平均500token，用GPT-3.5的话，P=0.15P=0.15P=0.15元/千token，Cfix=0C_{fix}=0Cfix=0，月度成本是：C=10000×500×0.151000=7500元/月 C = \frac{10000 \times 500 \times 0.15}{1000} = 7500 元/月C=100010000×500×0.15=7500元/月如果用7B小模型本地化部署，P=0.001P=0.001P=0.001元/千token，Cfix=3000C_{fix}=3000Cfix=3000元/月，月度成本是：C=10000×500×0.0011000+3000=3005元/月 C = \frac{10000 \times 500 \times 0.001}{1000} + 3000 = 3005 元/月C=100010000×500×0.001+3000=3005元/月成本差了2倍多，如果日均请求量是10万，GPT-3.5的成本是7.5万/月，小模型还是3005元/月，差了25倍。3.2 净收益计算公式我们做LLM的最终目的是赚钱，所以要算净收益：R=30×N×A×V−C R = 30 \times N \times A \times V - CR=30×N×A×V−C其中：RRR是月度净收益（单位：元）AAA是模型准确率VVV是每个正确请求的业务价值（比如客服场景每个正确回答节省5元人工成本）CCC是月度总成本还是用刚才的客服场景例子，单请求价值V=5V=5V=5元，GPT-3.5的准确率A=92%A=92\%A=92%

查看全文

http://www.gsyq.cn/news/1337239.html