当前位置：首页 > news >正文

手把手教你在 AMD 新本上部署本地 AI，从零开始不踩坑

news 2026/6/23 14:42:47

别让硬件吃灰：BIOS 与驱动的关键前置检查

拿到搭载 AMD Strix Halo 架构的新本，很多新手迫不及待想跑大模型，结果往往卡在第一步。其实，在打开任何软件之前，有两个底层设置直接决定了你的 Radeon 显卡能否“满血”工作。

首先进入 BIOS 界面（开机狂按 Del 或 F2），找到Advanced选项卡下的NBIO Common Options。这里有一个关键开关叫Resizable BAR，务必将其设置为Enabled。这是打破传统显存壁垒、让 CPU 和 GPU 共享大容量内存的前提。紧接着，在GFX Configuration中，将UMA Frame Buffer Size（即分配给核显的显存）手动调至最大。对于拥有 32GB 或 64GB 内存的机型，建议直接拉到96GB或Auto。如果不做这一步，系统可能默认只分给核显 2GB-4GB 显存，导致稍微大点的模型根本加载不进去。

保存重启进入 Windows 后，别急着装软件，先去 AMD 官网下载并安装最新版的Adrenalin Edition驱动。Strix Halo 作为新架构，旧版驱动对 Vulkan 计算队列的支持并不完善，极易导致后续软件识别不到 GPU。安装完成后，建议在设备管理器中确认一下显示适配器是否正常列出了 “Radeon 8060S” 或类似型号，确保没有黄色感叹号。

工具选型与安装：LM Studio 还是 Ollama？

环境打好地基后，我们来选择“施工队”。目前 AMD 平台上最成熟的两个方案是LM Studio和Ollama。

如果你偏好图形界面，喜欢直观地看到显存占用和生成速度，LM Studio是首选。它对 Windows 下的 Vulkan 后端支持最为友好，几乎做到了“开箱即用”。去官网下载安装包，一路默认安装即可。

如果你是命令行爱好者，或者需要将模型集成到其他代码项目中，Ollama更合适。在 PowerShell 中运行官方安装脚本winget install ollama即可完成部署。不过要注意，Ollama 在 Windows 上偶尔会出现“犯迷糊”的情况，需要一点额外的环境变量配置（后面会讲）。

无论选哪个，核心原则只有一个：必须使用 GGUF 格式的量化模型。这种格式专为 CPU/GPU 混合推理设计，能极大降低显存门槛。推荐去 HuggingFace 或 ModelScope 搜索Qwen2.5-14B-Instruct-GGUF或Llama-3-8B-GGUF，下载Q4_K_M或Q5_K_M版本，这是在精度和速度之间平衡最好的选择。

核心配置实战：解锁 Radeon 全部算力

软件装好了，模型也有了，但这时候直接跑，你很可能会发现速度奇慢无比——因为默认设置下，计算可能全跑在 CPU 上。我们需要手动干预，强制启用 GPU 加速。

LM Studio 的设置技巧

启动 LM Studio，点击左侧的Developer Settings（开发者设置）。

GPU Offload：这是最关键的一步。在下拉菜单中，务必手动选择Vulkan。千万不要选ROCm或CUDA，也不要迷信Auto，在 Windows 上 Auto 经常会误判导致回退到 CPU。
Context Length：将滑块向右拉满。得益于 Strix Halo 的统一内存架构，你可以放心设置为131072 (128k)。这不仅能让模型记住更长的对话历史，也是处理长文档分析的基础。
加载验证：点击右上角加载模型，观察顶部状态栏。如果显示绿色的GPU字样，且右侧条状图显示显存被大量占用，说明配置成功。此时生成速度应能达到 25-30 tokens/s。

Ollama 的调优方案

Ollama 默认会自动尝试调用 GPU，但在 Strix Halo 上有时需要“推一把”。如果在运行ollama run qwen2.5:14b时发现速度只有 3-5 tokens/s，说明它回退到了 CPU 模式。

尝试在启动服务前设置环境变量，强制指定架构版本：

$env:HSA_OVERRIDE_GFX_VERSION="11.0.3"ollama serve

这里的11.0.3对应 RDNA3 架构，能帮 Ollama 正确识别显卡。此外，为了固定上下文长度，可以创建一个Modelfile：

FROM qwen2.5:14b PARAMETER num_ctx 32768 SYSTEM "你是一个运行在本地的高效助手。"

然后执行ollama create my-ai -f Modelfile和ollama run my-ai，这样就能确保持续拥有较大的上下文窗口。

避坑指南：常见报错与解决方案

折腾过程中遇到报错是常态，以下是几个高频问题的“解药”：

问题一：LM Studio 显示 CPU 而非 GPU
- 原因：后端选错或驱动过旧。
- 解决：再次检查 Developer Settings 中是否明确选了Vulkan。如果已选仍无效，请卸载当前显卡驱动，去 AMD 官网重新下载最新版 Adrenalin 安装，重启电脑后再试。
问题二：进程意外退出或报错 “Context window too small”
- 原因：上下文设置超过了模型文件或系统限制。
- 解决：在 LM Studio 中不要盲目拉满，先尝试设置为 32768 测试稳定性。如果是 Ollama，确保 Modelfile 中的num_ctx参数已正确写入并重新创建了模型标签。
问题三：生成速度极慢（<5 tokens/s）
- 原因：模型未完全卸载到 GPU，部分层仍在 CPU 运行。
- 解决：在 LM Studio 的右侧设置栏，确认GPU Offload的滑块已拉到最右边（显示为 99/99 或 Max）。如果显存不足，尝试下载量化等级更低（如 Q3_K_M）的模型版本。