当前位置：首页 > news >正文

GGUF+Ollama本地部署大模型：原理、选型与实战指南

news 2026/6/9 23:13:00

1. 项目概述：本地运行 Hugging Face 模型，为什么 GGUF + Ollama 是当前最务实的选择？

你有没有过这样的经历：在 Hugging Face 上看到一个特别对胃口的开源大模型，比如 Qwen2-7B、Phi-3-mini 或者 Llama-3.1-8B，点开模型卡，满屏的pip install transformers torch、from transformers import AutoModelForCausalLM，再往下翻——全是 GPU 显存要求、CUDA 版本兼容警告、依赖冲突报错。你低头看看自己那台 32GB 内存 + RTX 4070 的笔记本，心里一沉：这模型怕不是得先租个云服务器跑起来？别急，这不是你的硬件不行，而是你用错了“钥匙”。

我从 2022 年开始做本地大模型部署，踩过无数坑：用transformers加载 7B 模型卡在torch.compile、用llama.cpp编译时 GCC 报错十七行、用text-generation-webui配置量化参数配到凌晨三点结果推理速度还不如不量化……直到去年底系统性地把 Ollama + GGUF 这套组合摸透，才真正体会到什么叫“开箱即用”。它不是魔法，而是一套被反复锤炼过的工程化路径：GGUF 是模型的“压缩包+说明书”，Ollama 是那个双击就能解压、自动识别硬件、按需分配资源的智能解压器。它不追求理论上的最高精度，而是死死咬住“在你手边这台设备上，用最少的命令、最短的时间，让模型真正动起来”这个目标。

核心关键词里，“Custom Quantization”（自定义量化）是很多人误解最深的一点。它不是让你手动调一堆q4_k_m、q5_k_s参数去赌运气，而是指 Ollama 允许你基于 GGUF 文件本身已封装的量化信息，选择最适合你硬件的加载策略——比如你的 Mac M2 芯片有 16GB 统一内存，就选q4_k_m；你的 Windows 台式机有 RTX 4090 和 64GB 内存，就可以放心上q5_k_m甚至q6_k；而如果你只有一台老款 i5 笔记本，q3_k_m就是那个能让你看到输出文字的“保底选项”。这种“量化”不是在训练后硬塞进去的粗糙压缩，而是模型作者在导出 GGUF 时，就用 llama.cpp 工具链做了精细的权重分组、异常值保留和浮点精度重映射，Ollama 做的，只是精准地读取并执行这份“说明书”。

所以这篇文章要讲的，不是“如何从零编译 llama.cpp”，也不是“怎么用 Python 写一百行代码加载模型”，而是一套可复制、可验证、失败率低于 5% 的本地模型启动流水线。它适合三类人：刚接触大模型想亲手试试效果的开发者、需要快速验证某个 Hugging Face 模型是否适配自己业务场景的算法工程师、以及那些厌倦了环境配置、只想专注 prompt 工程和应用逻辑的产品同学。接下来的内容，每一行命令、每一个参数、每一次报错，都来自我过去 14 个月在 7 台不同配置机器（MacBook Pro M1/M2/M3、Windows 10/11 台式机、Ubuntu 22.04 服务器）上的实测记录。我们不谈虚的，直接进实战。

2. 核心原理与方案选型：为什么是 GGUF + Ollama，而不是其他组合？

2.1 GGUF 格式：不是简单的“模型压缩”，而是一份完整的“硬件适配说明书”

很多人把 GGUF 理解成类似 ZIP 的压缩格式，这是个危险的误区。ZIP 压缩的是文件体积，GGUF 压缩的是“模型在特定硬件上运行所需的全部上下文”。我拿一个实际例子说明：Qwen2-7B-Instruct 的原始 PyTorch 模型（.safetensors）约 13.8GB，而它的官方 GGUF 版本（q4_k_m）只有 4.2GB。但体积减少 69% 只是表象，真正的价值在于 GGUF 文件内部的结构设计。

GGUF 文件是一个二进制容器，它被严格划分为三个逻辑区：

Header 区（头部）：固定 32 字节，存储魔数（0x86 0x46 0x47 0x55）、版本号、张量总数。这是 Ollama 启动时最先读取的部分，用来快速判断“这个文件我能不能认”。
Metadata 区（元数据）：存储所有关键配置，比如llm.architecture = "llama"、llm.context_length = 32768、llm.embedding_length = 4096，更重要的是quantization_version = 2和vocab.type = "llama"。这些不是注释，而是 Ollama 加载时必须严格遵循的指令。比如quantization_version = 2意味着它使用了 llama.cpp v2 的量化算法，如果 Ollama 版本太旧（v0.1.22 之前），就会直接报错退出，而不是尝试兼容。
Tensor Data 区（张量数据）：这才是真正的“模型权重”。但它不是简单地把 FP16 权重转成 INT4，而是采用了分组量化（Group-wise Quantization）。以q4_k_m为例，它把每 32 个权重分成一组，为每组单独计算一个缩放因子（scale）和一个零点（zero point），然后用 4-bit 整数存储量化后的值。同时，每组中最大的 2 个异常值（outliers）会被单独用 FP16 存储。这就解释了为什么q4_k_m比q4_0精度高得多——它没有粗暴地牺牲所有异常值，而是聪明地“保住了最关键的那几个”。

提示：你可以用gguf-tools这个命令行工具查看任意 GGUF 文件的详细结构。安装后执行gguf-tools dump your-model.Q4_K_M.gguf | head -n 50，你会看到清晰的 Header 和 Metadata 解析结果。这比看文档直观十倍。

2.2 Ollama：不只是个“模型管理器”，它是本地 LLM 的“操作系统内核”

Ollama 常被误认为是docker run的替代品，其实它的定位更接近于操作系统的内核模块。当你执行ollama run qwen2:7b时，背后发生了一系列精密的协同：

模型发现与下载：Ollama 首先检查本地~/.ollama/models/blobs/目录，如果没有对应模型，则从https://registry.ollama.ai（注意，这是 Ollama 官方镜像仓库，不是 Hugging Face）拉取一个轻量级的Modelfile（通常只有几百字节），里面明确写着FROM https://huggingface.co/Qwen/Qwen2-7B-Instruct-GGUF/resolve/main/qwen2-7b-instruct.Q4_K_M.gguf。
硬件指纹识别：Ollama 启动时会调用系统 API 获取 CPU 架构（x86_64 / aarch64）、GPU 类型（NVIDIA / AMD / Apple Silicon）、可用内存和显存。它不会盲目地把所有层都扔给 GPU，而是根据 GGUF 文件中的tensor_type元数据，决定哪些层（如 embedding、output）放 GPU，哪些（如中间 FFN 层）放 CPU。
动态内存管理：这是 Ollama 最被低估的能力。它内置了一个内存池（memory pool），会预估整个推理过程所需的最大内存（包括 KV Cache、临时 buffer、模型权重），然后向操作系统申请一块连续内存。如果申请失败（比如你只有 16GB 内存却想跑q5_k_m的 13B 模型），它会自动降级到更低的量化级别，或者提示你关闭其他程序。我测试过，在一台 16GB 内存的 MacBook Air M2 上，ollama run llama3:8b默认会启用q4_k_m，但如果手动指定--num_ctx 8192，它会立刻报错并建议你改用--num_ctx 4096。

对比其他方案：

transformers+accelerate：灵活但脆弱。你需要手动处理device_map="auto"的各种边界情况，bnb量化需要额外安装bitsandbytes，且只支持 NVIDIA GPU。我在一台 AMD Radeon RX 6800XT 的机器上，transformers直接无法加载任何量化模型，因为bitsandbytes不支持 ROCm。
llama.cpp命令行：极致轻量，但交互体验差。每次换模型都要重新写一长串参数，-ngl 99（GPU layer 数）这种参数需要你手动计算，稍有不慎就 CPU/GPU 负载失衡。而且它没有内置的 HTTP API，想集成到 Web 应用里还得自己写一层 wrapper。
text-generation-webui：功能强大，但配置项爆炸。光是量化相关设置就有 20 多个下拉菜单，新手极易选错。我曾见过一个用户把load_in_4bit和use_double_quant同时打开，结果模型根本加载不起来，查了三天日志才发现是bitsandbytes版本冲突。

Ollama 的胜出，在于它把所有这些复杂性封装在一个极简的 CLI 接口后面。ollama run是唯一入口，ollama list是唯一状态视图，ollama serve是唯一 API 服务。它不做加法，只做减法——把 90% 的用户 90% 的时间花在解决环境问题这件事，砍掉。

2.3 为什么绕不开 Hugging Face？它在这里扮演什么角色？

Hugging Face 在这个链条里，是无可争议的“模型源头”和“质量守门人”。Ollama 官方镜像仓库（registry.ollama.ai）里的模型，99% 都是 Hugging Face 上已有 GGUF 格式模型的镜像。但关键区别在于：Hugging Face 是模型的“生产工厂”，Ollama 是模型的“物流中心”。

你在 Hugging Face 上搜索qwen2 gguf，会看到Qwen/Qwen2-7B-Instruct-GGUF这个组织下的几十个文件，每个文件名都精确标注了量化级别（Q4_K_M、Q5_K_S）、上下文长度（-ctx4k）、是否包含 RoPE 插值（-rope2048）。这些文件都是由社区成员或模型作者，用llama.cpp的convert-hf-to-gguf.py脚本，配合严格的测试流程（比如用llama-bench对比不同量化级别的 perplexity）生成的。Ollama 不参与这个生产过程，它只负责高效、可靠地把这些“成品”运送到你的机器上。

所以，当你在 Ollama 里执行ollama run qwen2:7b，它实际上是在做三件事：

查询 Hugging Face 上Qwen/Qwen2-7B-Instruct-GGUF仓库，找到最新发布的qwen2-7b-instruct.Q4_K_M.gguf文件。
下载这个文件，并将其完整哈希值（SHA256）与 Hugging Face API 返回的校验值比对，确保传输过程中没有损坏。
将文件软链接到 Ollama 的本地模型目录，并生成一个轻量级的Modelfile，其中FROM指令指向这个 GGUF 文件的绝对路径。

这意味着，你永远可以信任 Ollama 拉取的模型，就是 Hugging Face 上那个经过社区验证的、可复现的版本。它不像某些第三方镜像站，会偷偷给你塞进一个未经测试的、精度严重劣化的量化版本。这也是为什么我坚持推荐大家，永远优先从 Hugging Face 官方或知名社区组织（如TheBloke）下载 GGUF 模型，而不是从不明来源的网盘链接。

3. 实操全流程：从零开始，在你的机器上跑通第一个 Hugging Face GGUF 模型

3.1 环境准备：三步确认，避免 80% 的“安装失败”

在敲下第一个ollama命令前，请务必完成这三步确认。我见过太多人卡在这一步，然后去 GitHub issue 里发帖问“为什么 ollama run 报错”，结果发现是系统没更新。

第一步：确认操作系统与架构Ollama 官方支持 macOS（Intel & Apple Silicon）、Linux（x86_64, aarch64）、Windows（WSL2 推荐，原生 Windows 支持有限）。打开终端，执行：

uname -m # 输出 x86_64 表示 Intel/AMD 64位 # 输出 aarch64 表示 ARM64（Mac M系列、树莓派等） # 输出 arm64 则是 macOS 上的 Apple Silicon，等同于 aarch64

注意：Windows 用户请务必使用 WSL2（Windows Subsystem for Linux），而不是 CMD 或 PowerShell。原生 Windows 版本的 Ollama 功能受限，且不支持 GPU 加速。我在一台 Windows 11 22H2 的机器上，用 WSL2 Ubuntu 22.04 安装 Ollama，全程无报错；而用原生 Windows 安装包，ollama list会显示空列表，因为服务根本没起来。

第二步：确认系统更新与基础依赖

macOS：确保 Xcode Command Line Tools 已安装。执行xcode-select --install，如果提示已安装则跳过。这是编译 Ollama 依赖的 C++ 库所必需的。
Linux (Ubuntu/Debian)：执行sudo apt update && sudo apt install -y curl wget build-essential。build-essential包含了 GCC、G++ 等编译器，Ollama 的部分底层组件需要它们。
Linux (CentOS/RHEL)：执行sudo yum groupinstall "Development Tools" && sudo yum install -y curl wget。

第三步：下载并安装 Ollama这是最不能偷懒的一步。绝对不要用pip install ollama或conda install ollama。Ollama 是一个独立的二进制服务，不是 Python 包。正确的安装方式是：

# macOS curl -fsSL https://ollama.com/install.sh | sh # Linux curl -fsSL https://ollama.com/install.sh | sh # Windows (WSL2) curl -fsSL https://ollama.com/install.sh | sh

这个脚本会自动检测你的系统，下载对应架构的二进制文件（约 120MB），并将其安装到/usr/local/bin/ollama（Linux/macOS）或C:\Users\YourName\AppData\Local\Programs\Ollama\ollama.exe（Windows）。安装完成后，重启你的终端（非常重要！），然后执行：

ollama --version # 正常输出应为：ollama version 0.3.12 (或更高)

提示：如果ollama --version报错command not found，说明 PATH 没生效。macOS 用户检查~/.zshrc或~/.bash_profile，Linux 用户检查~/.bashrc，确保里面有export PATH="/usr/local/bin:$PATH"这一行，并执行source ~/.zshrc（或对应文件）。

3.2 模型拉取与验证：如何精准定位 Hugging Face 上的 GGUF 模型

Ollama 的ollama run命令会自动从其官方仓库拉取模型，但官方仓库的模型数量有限（目前约 200 个），远少于 Hugging Face 上的数万个 GGUF 模型。所以，我们必须学会“手动对接” Hugging Face。

第一步：在 Hugging Face 上精准搜索打开 https://huggingface.co/models ，在搜索框输入你的目标模型名 +gguf，例如qwen2 gguf。在筛选器中，将Task设为Text Generation，Language设为你需要的语言（如Chinese），然后点击Filter。结果页会列出所有匹配的 GGUF 模型仓库。

第二步：识别高质量的 GGUF 仓库一个值得信赖的 GGUF 仓库，通常具备以下特征：

作者可信：TheBloke是社区公认的 GGUF 专家，他转换的模型几乎覆盖了所有主流模型，且每个模型页都有详细的README.md，说明量化方法、测试指标（perplexity）、硬件要求。
文件命名规范：标准命名是model-name.Qx_K_y.gguf，其中x是 bit 数（4, 5, 6），K表示分组量化，y是优化级别（M= Medium,S= Small,L= Large）。例如qwen2-7b-instruct.Q4_K_M.gguf。
有明确的README.md：里面会写明“此模型使用 llama.cpp commitabc1234转换”，并附上llama-bench的 benchmark 结果。没有 README 的仓库，风险极高。

第三步：创建自定义 Modelfile假设你找到了Qwen/Qwen2-7B-Instruct-GGUF仓库，里面有一个文件叫qwen2-7b-instruct.Q4_K_M.gguf。现在，你需要告诉 Ollama：“嘿，我要用这个文件”。方法是创建一个Modelfile：

# 创建一个空文件夹，比如 ~/ollama-qwen2 mkdir ~/ollama-qwen2 && cd ~/ollama-qwen2 # 创建 Modelfile cat > Modelfile << 'EOF' FROM https://huggingface.co/Qwen/Qwen2-7B-Instruct-GGUF/resolve/main/qwen2-7b-instruct.Q4_K_M.gguf # 设置模型参数 PARAMETER num_ctx 4096 PARAMETER num_gqa 8 # 设置系统提示词（可选） SYSTEM """ 你是一个严谨、专业的AI助手，回答问题时要准确、简洁、有依据。如果不知道答案，就直接说“我不知道”。 """ EOF

这个Modelfile的核心是FROM指令，它直接指向 Hugging Face 上 GGUF 文件的 raw 下载链接。Ollama 会自动处理 HTTPS 下载、校验和缓存。PARAMETER指令用于覆盖 GGUF 文件中默认的参数，num_ctx是上下文长度，num_gqa是 Grouped-Query Attention 的组数（Qwen2 模型需要设为 8，否则会报错）。

第四步：构建并运行模型在Modelfile所在目录，执行：

ollama create qwen2:7b-custom -f Modelfile # 这会启动下载，进度条会显示“pulling manifest”、“downloading layers”... # 下载完成后，会显示“created qwen2:7b-custom” # 然后运行 ollama run qwen2:7b-custom

首次运行会稍慢（因为要解压和初始化内存池），但之后每次启动都在 2 秒内。你会看到一个交互式终端，输入你好，模型会立刻回复。

注意：如果下载卡在 99%，大概率是网络问题。Ollama 默认使用系统 DNS，你可以临时切换为1.1.1.1：echo "nameserver 1.1.1.1" | sudo tee /etc/resolv.conf（Linux/macOS），然后再试。

3.3 自定义量化与性能调优：不是“越高压缩越好”，而是“刚刚好”

Ollama 的--quantize参数是个常见误区。Ollama 本身不提供实时量化功能。它只能加载已经存在于 GGUF 文件中的量化版本。所谓“自定义量化”，指的是你从 Hugging Face 上选择不同量化级别的 GGUF 文件，然后通过Modelfile指定它。

那么，如何为你的硬件选择最合适的量化级别？我总结了一张实战经验表：

量化级别	文件名示例	模型大小（7B）	推理速度（M2 Ultra）	精度损失（vs FP16）	适用硬件
`Q2_K`	`model.Q2_K.gguf`	~2.1GB	★★★★★ (最快)	高（明显幻觉）	仅限演示、超低功耗设备
`Q3_K_M`	`model.Q3_K_M.gguf`	~2.7GB	★★★★☆	中（部分事实错误）	16GB 内存的笔记本
`Q4_K_M`	`model.Q4_K_M.gguf`	~3.9GB	★★★☆☆	低（可接受）	绝大多数用户的黄金选择
`Q5_K_M`	`model.Q5_K_M.gguf`	~4.8GB	★★☆☆☆	极低（肉眼难辨）	32GB+ 内存，有 GPU
`Q6_K`	`model.Q6_K.gguf`	~5.7GB	★☆☆☆☆	几乎无损	64GB+ 内存，高端 GPU

这张表的结论，来自我在 M2 Ultra（64GB 内存）、RTX 4090（24GB 显存）、i7-11800H（32GB 内存）三台机器上，用llama-bench对同一段文本（1000 词英文新闻）进行的 10 轮平均测试。Q4_K_M是一个完美的平衡点：它比Q3_K_M快 18%，但精度损失只有 0.3%（perplexity 从 8.2 降到 8.23）；而Q5_K_M虽然精度更好，但内存占用多出 23%，在 32GB 内存的机器上，会导致系统频繁 swap，反而拖慢整体响应。

实操技巧：如何安全地“升级”量化级别？假设你已经在用qwen2:7b（默认Q4_K_M），现在想试试Q5_K_M。不要删除旧模型，而是创建一个新的Modelfile：

FROM https://huggingface.co/Qwen/Qwen2-7B-Instruct-GGUF/resolve/main/qwen2-7b-instruct.Q5_K_M.gguf PARAMETER num_ctx 4096 PARAMETER num_gqa 8

然后执行ollama create qwen2:7b-q5 -f Modelfile。这样，qwen2:7b和qwen2:7b-q5两个模型会共存，你可以随时用ollama run qwen2:7b-q5切换。Ollama 的模型存储是硬链接（hard link）机制，相同 GGUF 文件的不同Modelfile不会重复下载，节省磁盘空间。

3.4 集成到你的应用：不只是命令行，还有 HTTP API 和 Python SDK

Ollama 的终极价值，是让你能把大模型无缝嵌入到任何应用中。它内置了一个功能完备的 RESTful API，默认监听http://localhost:11434。

HTTP API 实战：用 curl 发起一次完整对话

# 第一步：发送一个 POST 请求，启动一个聊天会话 curl http://localhost:11434/api/chat \ -H "Content-Type: application/json" \ -d '{ "model": "qwen2:7b-custom", "messages": [ {"role": "system", "content": "你是一个严谨、专业的AI助手。"}, {"role": "user", "content": "请用三句话介绍量子计算。"} ], "stream": false }' | jq '.message.content'

这个请求会返回一个 JSON，其中.message.content就是模型的回复。stream: false表示等待模型生成完全部内容再返回；设为true则会返回一个 SSE（Server-Sent Events）流，适合实现打字机效果。

Python SDK：几行代码，搞定企业级集成Ollama 官方提供了ollamaPython 包，安装和使用极其简单：

pip install ollama

import ollama # 同步调用 response = ollama.chat( model='qwen2:7b-custom', messages=[ {'role': 'system', 'content': '你是一个严谨、专业的AI助手。'}, {'role': 'user', 'content': '请用三句话介绍量子计算。'} ] ) print(response['message']['content']) # 流式调用（适合 Web 应用） stream = ollama.chat( model='qwen2:7b-custom', messages=[{'role': 'user', 'content': '讲个笑话'}], stream=True ) for chunk in stream: print(chunk['message']['content'], end='', flush=True)

这个 SDK 的优势在于，它完全屏蔽了 HTTP 协议细节，你不需要处理requests的 session、headers、error handling。它还内置了连接池和重试机制，即使 Ollama 服务短暂中断，SDK 也会自动重连。

提示：在生产环境中，建议用ollama serve启动 Ollama 服务，并用systemd（Linux）或launchd（macOS）将其设为开机自启。这样你的 Python 应用启动时，Ollama 服务一定在运行，无需担心ConnectionRefusedError。

4. 常见问题与排查技巧实录：那些官方文档里不会写的“血泪教训”

4.1 “Ollama run 报错：no such file or directory” —— 90% 是路径和权限问题

这个错误看似简单，但背后原因五花八门。我整理了最常遇到的三种场景及解决方案：

场景一：Modelfile中的FROMURL 错误最常见的错误是复制了 Hugging Face 页面上的“网页链接”，而不是“raw 文件链接”。例如，你复制了https://huggingface.co/Qwen/Qwen2-7B-Instruct-GGUF/blob/main/qwen2-7b-instruct.Q4_K_M.gguf，这只是一个 HTML 页面，Ollama 下载下来是个 2KB 的 HTML 文件，自然无法识别。正确做法是点击文件名旁边的↓下载按钮，或者在 URL 中把/blob/替换成/resolve/，变成https://huggingface.co/Qwen/Qwen2-7B-Instruct-GGUF/resolve/main/qwen2-7b-instruct.Q4_K_M.gguf。

场景二：Linux 系统上权限不足在 Ubuntu 上，如果你用sudo安装了 Ollama，但普通用户执行ollama run，有时会报这个错。这是因为 Ollama 的服务进程（ollamadaemon）是以ollama用户身份运行的，而模型文件如果被root下载，普通用户可能没有读取权限。解决方案是：

# 查看模型文件权限 ls -la ~/.ollama/models/blobs/ # 如果看到类似 -rw------- 1 root root ...，说明权限太严 # 修复权限 sudo chown -R $USER:$USER ~/.ollama sudo chmod -R 755 ~/.ollama

场景三：Mac 上的 Gatekeeper 拦截macOS 的 Gatekeeper 有时会阻止 Ollama 的二进制文件运行，表现为command not found或Operation not permitted。解决方案是：

# 在终端中执行 sudo xattr -rd com.apple.quarantine /usr/local/bin/ollama # 然后重启终端

4.2 “模型加载后，推理速度极慢，CPU 占用 100%” —— GPU 没用上！

这是 Windows 和 Linux 用户最常抱怨的问题。根本原因只有一个：Ollama 没有成功调用你的 GPU。排查步骤如下：

第一步：确认 GPU 驱动已正确安装

NVIDIA：执行nvidia-smi，如果能看到 GPU 信息和驱动版本（>= 525.60.13），说明驱动 OK。
AMD：执行clinfo | grep "Device Name"，能看到你的 GPU 型号。
Apple Silicon：无需额外驱动，macOS 原生支持。

第二步：确认 Ollama 是否检测到了 GPU执行ollama show qwen2:7b-custom --modelfile，查看输出中是否有RUNTIME gpu或类似字样。如果没有，说明 Ollama 没识别到 GPU。

第三步：强制启用 GPUOllama 的 GPU 支持是通过OLLAMA_NUM_GPU环境变量控制的。在运行模型前，先设置它：

# Linux/macOS export OLLAMA_NUM_GPU=1 ollama run qwen2:7b-custom # Windows (PowerShell) $env:OLLAMA_NUM_GPU="1" ollama run qwen2:7b-custom

对于 NVIDIA GPU，你还可以指定具体的 GPU ID：

export CUDA_VISIBLE_DEVICES=0 # 使用第一块 GPU export OLLAMA_NUM_GPU=1 ollama run qwen2:7b-custom

实测心得：在一台 RTX 4090 机器上，OLLAMA_NUM_GPU=1可以将qwen2:7b的 token/s 从 12 提升到 48，提升整整 4 倍。但要注意，OLLAMA_NUM_GPU的值不是“GPU 数量”，而是“用于推理的 GPU 层（layer）数量”。对于 7B 模型，设为 1 就够了；对于 13B 模型，可以设为 2；超过 32B 的模型，才需要设为 3 或 4。

4.3 “Ollama list 显示模型，但 ollama run 报错：context length exceeded” —— 参数没对齐

这个错误意味着你试图让模型处理的文本长度，超过了它在 GGUF 文件中定义的最大上下文（num_ctx）。例如，qwen2-7b-instruct.Q4_K_M.gguf的默认num_ctx是 32768，但如果你在Modelfile中写了PARAMETER num_ctx 65536，Ollama 就会报错。

解决方案是：

查看模型的真实num_ctx：用gguf-tools查看：

gguf-tools dump ~/.ollama/models/blobs/sha256-xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx | grep "llm.context_length"

在Modelfile中，PARAMETER num_ctx的值不能超过这个数字。如果你想用更长的上下文，唯一的办法是去找一个*-ctx64k.gguf这样的特殊版本，或者自己用llama.cpp重新转换。

4.4 “模型回复乱码，或中文显示为方块” —— 编码与 Tokenizer 问题

GGUF 模型的 tokenizer 是固化在文件里的。如果模型作者在转换时用了错误的 tokenizer（比如把 Qwen 的 tokenizer 用成了 Llama 的），就会出现乱码。这个问题无法在 Ollama 层面修复，只能换模型。

我的避坑指南：

优先选择TheBloke转换的模型。他的README.md里一定会写明Tokenizer: Qwen2Tokenizer。
避开那些名字里带merged、combined的模型。这些往往是把多个模型胡乱拼接的产物，tokenizer 极不稳定。
中文模型，一定要测试“中文标点”。用。！？；：""''（）【】《》这些符号提问，如果模型回复里这些符号变成了 ``，说明 tokenizer 有问题，立刻换模型。

4.5 “Ollama 服务崩溃，日志里全是 ‘segmentation fault’” —— 内存溢出的前兆

这是一个危险信号，意味着你的硬件资源已经到了极限。segmentation fault通常是内存访问越界，根源是 Ollama 的内存池申请失败。

紧急处理：

立即停止所有ollama run进程：pkill ollama。
清理 Ollama 缓存：ollama rm $(ollama list | awk 'NR>1 {print $1}')（删除所有模型）。
重启 Ollama：ollama serve。

长期预防：

永远不要在Modelfile中设置过高的num_ctx。对于Q4_K_M的 7B 模型，num_ctx 4096是安全上限；num_ctx 8192就需要 32GB 内存。
监控内存使用：在 Linux/macOS 上，用htop观察ollama进程的 RES（物理内存）列。如果它持续超过你总内存的 80%，就必须降级量化或减少num_ctx。
为 Ollama 分配专用内存：在~/.ollama/config.json中添加：
```
{ "max_memory": "24G" }
```
这会强制 Ollama 的内存池不超过 24GB，避免它吃光系统内存导致崩溃。