当前位置: 首页 > news >正文

# 2026.5 LLaMA Factory 微调模型 使用 llama.cpp 量化 Qwen3.5 模型实操文档

2026.5 LLaMA Factory 微调模型 使用 llama.cpp 量化 Qwen3.5 模型实操文档文档说明适用场景将LLaMA Factory 微调并合并后的 Qwen3.5 模型HuggingFace 格式转换为 llama.cpp 支持的 GGUF 格式并完成量化推理核心问题Qwen3.5 自带 MTP 模块llama.cpp 不兼容转换时需禁用测试环境Linux 系统、llama.cpp 最新版、Qwen3.5 全量合并模型一、前置准备1. 环境要求已安装 Python、PyTorch、git已完成 LLaMA Factory 微调且合并 LoRA 权重得到完整 HF 格式模型模型目录包含model.safetensors、config.json、tokenizer.json等核心文件2. 模型路径本文默认模型路径/mnt/workspace/LLaMA-Factory/saves/merge/qwen3.5_sft_merged二、步骤1拉取并编译最新版 llama.cppllama.cpp 需最新版才能支持 Qwen3.5 架构# 进入工作目录cd/mnt/workspace# 克隆 llama.cpp已克隆则跳过gitclone https://github.com/ggerganov/llama.cppcdllama.cpp# 拉取最新代码gitpull# 编译cmake-Bbuild cmake--buildbuild--configRelease三、步骤2HF 格式 → GGUF 格式核心步骤必须添加--no-mtp参数禁用 Qwen3.5 专属 MTP 模块解决张量缺失报错# 回到 llama.cpp 根目录cd/mnt/workspace/llama.cpp# 执行转换命令复制直接运行python convert_hf_to_gguf.py\/mnt/workspace/LLaMA-Factory/saves/merge/qwen3.5_sft_merged\--outfileqwen3.5_sft_merged_f16.gguf\--no-mtp\--outtypef16输出文件qwen3.5_sft_merged_f16.ggufFP16 精度基础模型四、步骤3GGUF 模型量化推荐 q4_K_Mq4_K_M 是平衡速度与精度的最优量化方案# 量化命令使用新版 llama-quantize 工具./build/bin/llama-quantize\qwen3.5_sft_merged_f16.gguf\qwen3.5_sft_merged_q4_K_M.gguf\q4_K_M输出文件qwen3.5_sft_merged_q4_K_M.gguf最终量化模型五、步骤4模型推理测试1. 单次指令测试./build/bin/llama-cli\--model/mnt/workspace/llama.cpp/qwen3.5_sft_merged_q4_K_M.gguf\--chat-template chatml\-p你好2. 交互式对话模式./build/bin/llama-cli\--model/mnt/workspace/llama.cpp/qwen3.5_sft_merged_q4_K_M.gguf\--chat-template chatml\--conversation六、核心参数说明参数作用必要性--no-mtp禁用 Qwen3.5 专属 MTP 模块解决张量缺失报错必选--outtype f16输出 FP16 精度 GGUF 模型推荐--chat-template chatml适配 Qwen3.5 官方对话模板必选q4_K_M量化格式平衡速度/精度推荐七、常见报错与解决方案1. 报错missing tensor blk.24.attn_norm.weight原因未禁用 Qwen3.5 MTP 模块解决转换时必须加--no-mtp参数2. 报错failed to open GGUF file原因Linux 路径使用 Windows 反斜杠\或路径错误解决统一使用正斜杠/用ls验证文件存在
http://www.gsyq.cn/news/1360040.html

相关文章:

  • 一个简单的MCP代码示例
  • 如何用暗黑破坏神2存档编辑器重新定义你的单机游戏体验?
  • 几类结构矩阵的参数化符号分析与高精度计算方法【附程序】
  • 如何在Windows 11上快速安装安卓子系统:3步开启跨平台应用新时代
  • 开源火箭设计仿真工具:从零开始构建稳定可靠的模型火箭
  • 跨境社媒运营真正难的 不是内容不够而是账号越来越没有“主线感”
  • 知识竞赛抢答器使用培训:选手必知的5个技巧
  • 基站正在成为 AI 计算节点:NVIDIA Aerial 推动 RAN 架构重构
  • CANN-Profiler-昇腾NPU上推理慢到底慢在哪
  • 投影仪的分辨率不高,仅为1024*768的分辨率,而笔记本电脑2560×1600(2.5K)分辨率。‌‌——如果采用扩展屏复制笔记本电脑分辨率,发现那个投影仪投影出的字很小,且看不清。 将笔记本电脑的
  • CANN ops-transformer:MC2 通信融合算子怎么加速 MoE 的 All-to-All
  • 分布式系统平台选型与核心开发实践:从微服务到云原生演进
  • Vue2进阶 - Ref
  • Linux Systemd服务配置实战:从核心概念到生产环境部署
  • 大数据技术之SparkSQL
  • VL53L8CX运动指示器:嵌入式动态感知的硬件级解决方案
  • BepInEx终极指南:5分钟学会游戏模组框架安装与使用
  • C++跨平台线程池组件设计:从核心原理到工程实践
  • 给机器人一个值得信赖的“判断力”
  • 鸿蒙意图框架快速入门:5 分钟实现你的第一个意图
  • libwebsockets跨平台移植实战:从交叉编译到嵌入式部署
  • 跨平台macOS组件获取:系统部署专家的高效解决方案
  • NBK_RD8x3x MCU开发实战:从GPIO到定时器中断实现LED精准闪烁
  • C++学习之线程详解
  • 车载音响升级指南:AE1-L方案核心解析与DSP调音实战
  • iMLite AI Map 2.1:嵌入式离线地图如何赋能智能穿戴独立导航
  • 深入解析Linux fork系统调用:从写时复制到多线程陷阱与实战指南
  • 零基础 AI 项目,AI 短剧带货系统,全程落地扶持
  • 帕金森病脑内aSyn,竟搭着免疫细胞快车直抵肠道
  • STM32MP1 M4核心定时器中断实战:从原理到1ms精准时基实现