当前位置: 首页 > news >正文

GLM-4.7-Flash 量化版本地部署,1 张 4090 开跑

1、下载模型

我选择的是这个 AWQ-4bit 量化版,原因 1 是它支持 vLLM 部署,原因 2 是它真的很小巧,把原版 58GB 压到了 17GB,原因 3 是压缩至此情况下,幻觉没有显著增加

modelscope download --model cyankiwi/GLM-4.7-Flash-AWQ-4bit

https://modelscope.cn/models/cyankiwi/GLM-4.7-Flash-AWQ-4bit/files

https://modelscope.cn/models/cyankiwi/GLM-4.7-Flash-AWQ-4bit/files

2、升级 vLLM@nightly

先声明:我没有选择此方法,但是官方教程提到了,大家可以试试

我遇到的问题是各种依赖相互干扰,烦死了。还有系统基础环境太差,又不敢升级,昨天DeepSeek-OCR-2 本地部署,实测一文中我有提到。

pip install -U vllm --pre --index-url https://pypi.org/simple --extra-index-url https://wheels.vllm.ai/nightly pip install git+https://github.com/huggingface/transformers.git

vLLM 巨大里程碑 一文中提到 vLLM 官网上线(https://vllm.ai/),这里面有个极友好的交互式 vLLM 安装选择器(GPU、CPU 等)

我选择的方式是 vLLM-Docker

https://hub.docker.com/r/vllm/vllm-openai/tags

https://hub.docker.com/r/vllm/vllm-openai/tags很简单,直接docker pull vllm/vllm-openai:nightly拉取镜像

这时还不行,因为即便是 nightly 版本,官方也没有支持 transformers 5.x

这里有个骚操作

新建一个 Dockfile

FROM vllm/vllm-openai:nightly RUN pip install transformers>=5.0.0rc2

然后自行打包 glm-4.7 专用镜像

docker build -t glm-4.7-custom .

新镜像就是 glm-4.7-custom,后面用它拉起模型,至此 vLLM 升级完成

3、启动模型

vllm 直接启动,我没有尝试

CUDA_VISIBLE_DEVICE=0,1 vllm server --model /data/models/GLM-4.7-Flash-AWQ-4bit \ --tensor-parallel-size 2 \ --tool-call-parser glm47 \ --reasoning-parser glm45 \ --enable-auto-tool-choice \ --served-model-name glm-4.7-flash

我的 docker 启动脚本如下,1张卡就能跑起来,这里我用了2张

默认 max-model-len 直接报 OOM,降到 10240,然后 max_num_seqs 设 10 才跑起来

docker run --rm --runtime=nvidia --gpus '"device=0,1"' --name GLM-4.7-Flash -p 3004:8000 -p 5005:8000 -v /data/models/GLM-4.7-Flash-AWQ-4bit:models glm-4.7-custom --model /models/GLM-4.7-Flash-AWQ-4bit \ --tensor-parallel-size 2 \ --tool-call-parser glm47 \ --reasoning-parser glm45 \ --enable-auto-tool-choice \ --served-model-name glm-4.7-flash \ --max-model-len 10240 \ --max_num_seqs 10 \ --host 0.0.0.0 \ --port 8000

运行没问题,我把它接入了 OpenwebUI

使用感受,思考太墨迹了,甚至超过 30s 的思考有点不习惯

生成速度倒是很不错

显存占用如下:

这个级别的模型解决点内网疑难杂症,甚至写点代码还是很不错的

不过大家想不到吧,我内网还在用着DeepSeek-R1-0528-Qwen3-8B(之前有介绍),时常给我惊喜

比如下面问题,它比 GLM 4.7 Flash 还靠谱,还只需要一张卡就能跑,思考极快。现在的大模型,哪有赢家通吃,各有千秋,没必要大炮打蚊子。就算是一张厕纸,一条底裤也有它本身的用处,更何况大模型乎。

如果在使用 GLM 4.7 Flash 时遇到循环或重复问题,可以尝试添加--temp 1.0 --min-p 0.01 --top-p 0.95 --dry-multiplier 1.1

我没遇到

http://www.gsyq.cn/news/1592076.html

相关文章:

  • 程序员面试“外挂“哪家强?2026年度10款AI面试工具全维度实测
  • 三分钟掌握Umi-CUT:批量图片去黑边的自动化解决方案
  • IntelliJ IDEA旗舰版安装常见陷阱全曝光:许可证绑定失效、Proxy劫持、Java 21兼容性断点(附JetBrains Support团队内部调试日志截图)
  • Blender 3MF插件终极指南:如何在Blender中实现3D打印文件无缝导入导出
  • 佛山市电动伸缩门厂家排名
  • 3步永久解锁IDM:免费激活Internet Download Manager完整教程
  • 单身证明公证怎么在线上办理?单身证明公证在国外可以办理吗?
  • 2026华南工业散热风扇十强榜单 山洋电气代理实测攻克风道阻抗难题
  • 2026开发变局:AI低代码淘汰传统编码,JNPF新版本破局内卷
  • 从OpenUSD、RTX到PhysX:工业级数字孪生平台的技术架构与实施路径
  • 如何在3分钟内让你的浏览器变身微信客户端:wechat-need-web插件终极指南
  • Windows 11安卓应用运行方案:WSA技术深度解析与实战指南
  • 计算机毕业设计之奖学金评定系统
  • Agent Skills安装使用教程
  • 计算机毕业设计之农产品销售系统的设计与实现
  • 技术实测|11大核心创新拆解:扶阳正气罐如何重构传统拔罐养生体系
  • Unity游戏自动翻译神器:XUnity.AutoTranslator完全指南
  • GPT-4o生产集成实战:流式响应、Token预估与熔断策略
  • 医院用AI管理诊疗规范文档:从找不到到秒查到的系统设计
  • MyFramework:Unity ListScope 如何减少临时 List 的 GC
  • SU(3)群特征标的点态与Lp范数估计:从Weyl公式到工程应用
  • 2026年苏州厂家用了这款8寸晶圆专用衬纸,良率提升0.5%!
  • 35+运维转行网络安全:告别内卷越老越吃香,附实战经验建议收藏
  • OpCore Simplify:重构黑苹果配置的技术框架与智能解决方案
  • 计算机毕业设计之jsp基于SSM的问卷调查平台的设计与实现
  • 计算机毕业设计之基于SSM的锦州风味美食推广系统设计与实现
  • 关于激光管安装的相关事宜
  • AI真能替代安全专家吗?聊聊AI技术在入侵检测系统中的作用与挑战
  • 亲子娱乐想让家庭再来,不能只让孩子玩、大人等
  • GHelper终极指南:华硕笔记本性能调校的完整解决方案