手把手教你在 AMD 新本上部署本地 AI,从零开始不踩坑
别让硬件吃灰:BIOS 与驱动的关键前置检查
拿到搭载 AMD Strix Halo 架构的新本,很多新手迫不及待想跑大模型,结果往往卡在第一步。其实,在打开任何软件之前,有两个底层设置直接决定了你的 Radeon 显卡能否“满血”工作。
首先进入 BIOS 界面(开机狂按 Del 或 F2),找到Advanced选项卡下的NBIO Common Options。这里有一个关键开关叫Resizable BAR,务必将其设置为Enabled。这是打破传统显存壁垒、让 CPU 和 GPU 共享大容量内存的前提。紧接着,在GFX Configuration中,将UMA Frame Buffer Size(即分配给核显的显存)手动调至最大。对于拥有 32GB 或 64GB 内存的机型,建议直接拉到96GB或Auto。如果不做这一步,系统可能默认只分给核显 2GB-4GB 显存,导致稍微大点的模型根本加载不进去。
保存重启进入 Windows 后,别急着装软件,先去 AMD 官网下载并安装最新版的Adrenalin Edition驱动。Strix Halo 作为新架构,旧版驱动对 Vulkan 计算队列的支持并不完善,极易导致后续软件识别不到 GPU。安装完成后,建议在设备管理器中确认一下显示适配器是否正常列出了 “Radeon 8060S” 或类似型号,确保没有黄色感叹号。
工具选型与安装:LM Studio 还是 Ollama?
环境打好地基后,我们来选择“施工队”。目前 AMD 平台上最成熟的两个方案是LM Studio和Ollama。
如果你偏好图形界面,喜欢直观地看到显存占用和生成速度,LM Studio是首选。它对 Windows 下的 Vulkan 后端支持最为友好,几乎做到了“开箱即用”。去官网下载安装包,一路默认安装即可。
如果你是命令行爱好者,或者需要将模型集成到其他代码项目中,Ollama更合适。在 PowerShell 中运行官方安装脚本winget install ollama即可完成部署。不过要注意,Ollama 在 Windows 上偶尔会出现“犯迷糊”的情况,需要一点额外的环境变量配置(后面会讲)。
无论选哪个,核心原则只有一个:必须使用 GGUF 格式的量化模型。这种格式专为 CPU/GPU 混合推理设计,能极大降低显存门槛。推荐去 HuggingFace 或 ModelScope 搜索Qwen2.5-14B-Instruct-GGUF或Llama-3-8B-GGUF,下载Q4_K_M或Q5_K_M版本,这是在精度和速度之间平衡最好的选择。
核心配置实战:解锁 Radeon 全部算力
软件装好了,模型也有了,但这时候直接跑,你很可能会发现速度奇慢无比——因为默认设置下,计算可能全跑在 CPU 上。我们需要手动干预,强制启用 GPU 加速。
LM Studio 的设置技巧
启动 LM Studio,点击左侧的Developer Settings(开发者设置)。
- GPU Offload:这是最关键的一步。在下拉菜单中,务必手动选择
Vulkan。千万不要选ROCm或CUDA,也不要迷信Auto,在 Windows 上 Auto 经常会误判导致回退到 CPU。 - Context Length:将滑块向右拉满。得益于 Strix Halo 的统一内存架构,你可以放心设置为131072 (128k)。这不仅能让模型记住更长的对话历史,也是处理长文档分析的基础。
- 加载验证:点击右上角加载模型,观察顶部状态栏。如果显示绿色的GPU字样,且右侧条状图显示显存被大量占用,说明配置成功。此时生成速度应能达到 25-30 tokens/s。
Ollama 的调优方案
Ollama 默认会自动尝试调用 GPU,但在 Strix Halo 上有时需要“推一把”。如果在运行ollama run qwen2.5:14b时发现速度只有 3-5 tokens/s,说明它回退到了 CPU 模式。
尝试在启动服务前设置环境变量,强制指定架构版本:
$env:HSA_OVERRIDE_GFX_VERSION="11.0.3"ollama serve这里的11.0.3对应 RDNA3 架构,能帮 Ollama 正确识别显卡。此外,为了固定上下文长度,可以创建一个Modelfile:
FROM qwen2.5:14b PARAMETER num_ctx 32768 SYSTEM "你是一个运行在本地的高效助手。"然后执行ollama create my-ai -f Modelfile和ollama run my-ai,这样就能确保持续拥有较大的上下文窗口。
避坑指南:常见报错与解决方案
折腾过程中遇到报错是常态,以下是几个高频问题的“解药”:
问题一:LM Studio 显示 CPU 而非 GPU
- 原因:后端选错或驱动过旧。
- 解决:再次检查 Developer Settings 中是否明确选了Vulkan。如果已选仍无效,请卸载当前显卡驱动,去 AMD 官网重新下载最新版 Adrenalin 安装,重启电脑后再试。
问题二:进程意外退出或报错 “Context window too small”
- 原因:上下文设置超过了模型文件或系统限制。
- 解决:在 LM Studio 中不要盲目拉满,先尝试设置为 32768 测试稳定性。如果是 Ollama,确保 Modelfile 中的
num_ctx参数已正确写入并重新创建了模型标签。
问题三:生成速度极慢(<5 tokens/s)
- 原因:模型未完全卸载到 GPU,部分层仍在 CPU 运行。
- 解决:在 LM Studio 的右侧设置栏,确认GPU Offload的滑块已拉到最右边(显示为 99/99 或 Max)。如果显存不足,尝试下载量化等级更低(如 Q3_K_M)的模型版本。
完成以上步骤,你的 AMD 新本就已经是一台强大的本地 AI 工作站了。无论是写代码、润色文章还是分析长篇研报,所有数据都在本地闭环,既安全又流畅。接下来,就是尽情发挥创意,探索端侧 AI 无限可能的时刻了。
200小时GPU算力已就位,快来领取:https://marketing.csdn.net/questions/Q2604140858304426315?utm_source=AIpaper
