Nano / Mini / Flash Model 完整释义(LLM 行业通用)
Nano / Mini / Flash Model 完整释义(LLM 行业通用)
一、Nano 超微型模型
核心定位
端侧离线专用最小档模型,主打手机、手表、嵌入式、本地离线运行。
- 参数量区间:100M~500M(亿级以内极小参数量)
- 硬件门槛:量化后可在手机、树莓派、轻薄本 CPU 本地跑,无需云端、不上网
- 能力取舍:牺牲复杂推理、长上下文,只做短句总结、快捷回复、简单分类、本地实时小任务
- 代表:Gemini Nano、Phi-3 Nano、Qwen-Nano
- 适用场景:手机 AI 输入法摘要、本地实时语音转写、隐私端侧助手
二、Mini 小型主力轻量模型
核心定位
轻量化通用主力模型,平衡速度与基础推理,云上 / 本地均可部署。
- 参数量区间:500M~3B
- 硬件门槛:单张消费显卡(4060/4090)轻松跑,云端 API 成本极低
- 能力:具备完整对话、基础代码、简单多步骤逻辑,上下文窗口中等
- 代表:GPT-4o Mini、Phi-3 Mini、Llama 3.2 1B/3B、Qwen Mini
- 适用场景:日常客服、批量文本抽取、轻量化 Agent、普通问答、内容润色
Nano vs Mini 直观区分
- Nano:纯本地离线、极小参数、能力最弱
- Mini:云上通用轻量主力、参数更大、推理更强
三、Flash Model 极速高效云模型
核心定位
云端高速吞吐优化款,不以 “极小参数” 为核心,而是架构 / 调度极致提速。 关键词:Flash = 闪电速度、高并发、低价 API
- 设计目标:降低首字延迟、提升每秒 token 吞吐、大规模并发场景压低成本
- 两种常见 Flash 路线:
- 路线 1(谷歌 Gemini Flash):中等参数量通用模型,优化云端推理管线,长上下文、多模态齐全,价格远低于 Pro/Ultra,适合大规模商用 API;
- 路线 2(开源 Flash-LLM/MoE Flash):稀疏 MoE 架构,总参量大,但每次推理只激活少量参数,兼顾强推理与极速输出。
- 特点:
- 基本只跑云端,不主打手机离线;
- 上下文窗口通常很大(128k+);
- 擅长高并发:批量摘要、实时对话机器人、海量文本过滤。
- 代表:Gemini 1.5 Flash、Step 3.5 Flash
三者横向对比表
表格
| 名称 | 核心关键词 | 部署场景 | 参数规模 | 核心优势 | 短板 |
|---|---|---|---|---|---|
| Nano | 端侧、离线、最小 | 手机 / 嵌入式本地 | 100M–500M | 不上网、隐私、极低内存占用 | 逻辑弱、短上下文、复杂任务易幻觉 |
| Mini | 轻量通用、均衡 | 云端 API / 本地显卡 | 500M–3B | 性价比高、基础推理完整、易部署 | 复杂数学 / 深度代码不如大 Pro 模型 |
| Flash | 极速、高并发、长上下文 | 云端大规模服务 | 中大型参数 / MoE 稀疏 | 吞吐极高、延迟低、低价、长窗口 | 无法本地离线运行,必须联网调用 |
一句话快速记忆
- Nano = 塞手机本地离线最小模型
- Mini = 小参数通用轻量主力
- Flash = 云端专门提速、高并发低价大吞吐模型
补充搭配你上一轮的概念
- Nano/Mini 自身上下文窗口(context window)很小,短期记忆(short term memory)容量有限;
- Flash 模型通常配备超大 context window,专门解决大批量长文本处理;
- 三者都属于小 / 轻量模型(SLM),区别于 Pro/Ultra 等旗舰大模型。
