多模态大模型应用
环境
1.1 硬件环境
海光 K100-AI 64G(DTK25.04,国产DCU环境):国产化信创适配验证
1.2 软件环境
(1)框架:Transformers、LLaMA-Factory、Pytorch
(2)图像预处理:OpenCV、Pillow
二、多模态大模型选型
2.1多模态模型清单
模型名称 | 模型规格 | 核心特性 | 硬件适配说明 |
Qwen2-VL-2B-Instruct | 2B轻量多模态 | 推理速度快 | CUDA11.8/海光K100全支持 |
Qwen2.5-VL-3B-Instruct | 3B轻量化多模态 | 细节纹理识别优于2B,证件纹理区分度高 | CUDA11.8/海光K100全支持 |
GLM-4.6V-Flash-9B | 9B多模态 Flash加速版 | 文档篡改特征识别能力突出 | CUDA11.8兼容,海光适配需定制依赖 |
2.2Qwen2.5-VL-3B-Instruct(4bit 量化部署)
优势:精度较高、显存占用适中、推理速度均衡、CUDA/国产海光双适配;
适用场景:高并发批量质检。
2.3 GLM-4.6V-Flash-9B
优势:漏检、误判指标较优,细微篡改识别能力强;
局限:算力资源消耗高,并发承载量低;
适用场景:精度要求较高场景。
2.4 Qwen2-VL-2B-Instruct
优势:低显存、极速推理;
局限:精度较低。
适用场景:精度要求不高场景。
