当前位置：首页 > news >正文

模型参数量越大越好？qwen-vl-embedding模型实践

news 2026/6/20 20:23:44

Qwen-VL 系列模型是多模态领域的 SOTA顶尖模型在项目选型中常常被优先考虑。然而最近在做图片相似场景验证时我却意外发现它不如 CLIP 和 DINOv2 等参数更小的视觉模型。这个结果刷新了我对模型的认知。一、背景最近在做影视内容的项目有个任务经过拆解后得到一个子问题如何判断两张图片或两个视频帧在视觉上是相似的或者说包含相似内容这件事并不复杂把两张图片做 embedding 放到向量空间看看相似度是否超过某个阈值就行了。带着这个想法我开始找合适的模型。二、模型选型我选了三个代表性的模型。最令我期待的当然是 SOTA 模型 Qwen3-VL-Embedding——毕竟它参数量最大而且是 2026 年 1 月刚发布的论文按理说效果应该最好。模型参数量定位擅长领域CLIP (ViT-B/16)约 1.5 亿图文匹配标杆文本搜图、零样本分类DINOv2 (ViT-g/14)约 11 亿纯视觉自监督模型图像分类、实例检索、深度估计Qwen3-VL-Embedding (8B)约 80 亿多模态统一检索模型文本搜视频、视觉文档检索、视频问答我设计了一个实验来验证它们的能力。三、实验过程我选择了《亮剑》中的 5 个片段作为验证数据Query视频李云龙“开炮”片段正例视频同一个“开炮”片段不同剪辑版本反例视频亮剑中的其他战斗片段所有视频分别按 1 秒抽 1 帧然后使用上述三个模型分别计算 embedding 并存储。接着将 query 的每一帧与正例、反例的每一帧两两计算相似度。设定一个相似度阈值比如 0.5统计超过阈值的帧对数量。正例的相似帧数越多、反例的相似帧数越少说明模型在识别相似画面方面越强四、实验结果结果让我非常意外。如下图所示CLIP 和 DINOv2 两个模型在不同相似度阈值下正例的匹配比例都明显高于负例。而Qwen-VL-Embedding-8B 的表现完全相反——正例的匹配比例还不如负例。图1不同阈值下匹配比例正例 vs 负例均值再看正负例区分度gap 正例匹配率 - 最强负例匹配率。CLIP 和 DINOv2 的 gap 始终为正而 Qwen 的 gap 为负且随着阈值升高差距越大。图2正负例区分度gap为了搞清楚原因我进一步绘制了帧级相似度热力图。纵坐标是 query 帧横坐标是正例的帧颜色越深表示相似度越高。CLIP 和 DINOv2 的区分度比较高 —— query和正例中相似的帧为绿色不相似则是红色。Qwen 的热力图区分度则比较低——很多帧与另一个视频的所有帧都相似没法正确识别相似的帧。图3帧级相似度热力图从实际图片中捞两个 case 感受一下Query 第 3 帧 vs Positive 第 52 帧这两帧画面内容接近对应热力图的右上角位置。CLIP 和 DINOv2 准确识别出了高相似度但 Qwen 的相似度不明显。Query 第 14 帧 vs Positive 最后一帧同样是视觉相似的对CLIP 和 DINOv2 认为相似Qwen 表现平平。为什么参数量最大的 Qwen反而表现最差五、原理解析要回答这个问题需要仔细读一下 Qwen-VL-Embedding 的论文《Qwen3-VL-Embedding and Qwen3-VL-Reranker: A Unified Framework for State-of-the-Art Multimodal Retrieval and Ranking》5.1 Qwen-VL-Embedding 的设计初衷Qwen-VL-Embedding 的核心设计目标并非优化纯视觉相似度判别任务而是构建一个统一的多模态检索框架。根据论文描述该模型需要同时支持文本、图像、视频、视觉文档四种模态并覆盖图像检索、视频检索、视觉文档检索、视频分类、视频问答、时刻检索等 9 个元任务、78 个评测数据集。这种多任务、多模态的统一架构要求模型在一个共享的嵌入空间中同时满足多种异质的相似性约束。qwen模型的表征能力需要在不同的任务之间进行折中与权衡。当优化目标集包含“图文匹配”“视频时序定位”“文档图表理解”等差异性较大的子任务时模型的最优嵌入空间必然是一个多目标妥协的解而非针对某个单一任务如纯视觉帧相似度的极值解。因此Qwen 在纯图片相似度任务上表现不突出是其设计目标的直接结果而非性能缺陷。5.2 训练数据什么都有就是没有“纯图片相似度”Qwen-VL-Embedding 的训练数据主要包括以下部分图像任务数据图像分类、视觉问答、图像检索等视频任务数据视频分类、视频问答、视频检索、时刻检索视觉文档数据用于训练模型理解图表、PDF 页面、幻灯片等复杂视觉布局。值得注意的是这些数据中几乎没有专门用于“纯视觉帧相似度判别”的样本。数据构造的核心逻辑是语义对齐——即要求模型将语义相关的图文/视频/文档对映射到相近的向量位置而非学习像素级的视觉差异。这种数据偏置决定了 Qwen 的嵌入空间天然更适合跨模态语义匹配而非细粒度的视觉相似度计算。5.3 训练过程三阶段蒸馏融合追求“平均分最高”Qwen 的训练不是一步到位的而是分三个阶段阶段 1对比预训练用大规模合成数据做对比学习InfoNCE loss让模型学会基础的图文对齐。产出s0基础模型阶段 2多任务有监督微调训练 Reranker用高质量公开数据内部数据对分类、问答、检索等任务分别做定制化的对比学习。同时单独训练一个 Qwen3-VL-Reranker交叉编码器专门做“查询-文档”对的相关性打分二分类损失精度高但计算慢。产出s1擅长分类/问答的 embedding Reranker精排专家阶段 3蒸馏模型融合用 Reranker 对一批高质量数据打出精细的相关性分数然后用这些“软标签”去训练 embedding 模型蒸馏让 embedding 学到 Reranker 的检索能力。蒸馏后得到 s2检索能力极强但分类/问答可能下降。最后把 s1 和 s2 进行模型融合得到一个在所有任务上都表现不错的 s3最终模型。这套流程的最终结果是模型在各个任务上的平均分很高——MMEB-V2 拿了第一77.8 分。但代价是它在任何一个单项上都不太可能做到极致。5.4 总结Qwen 是一个“通才”而不是“专才”CLIP 和 DINOv2 的训练目标单一CLIP 专注于图文匹配DINOv2 专注于纯视觉特征学习。它们的向量空间可以针对“两张图片是否相似”这个任务做极致优化。Qwen 的训练目标多元它要同时满足几十个任务的需求。它的向量空间是一个“折中”的空间在各种任务之间取平衡。因此在“纯图片相似度”这个单项上它打不过专攻该任务的模型是完全符合预期的。这不是 Qwen“不行”而是它本来就不是为这个任务设计的。六、Qwen 模型擅长什么我认为 Qwen 模型最适合多模态内容的 RAG。把图片、视频、文本、PDF 等混合数据交给 Qwen 做 embedding存入向量库。用户查询时先用 Qwen-VL-Embedding 快速召回 Top-K 候选。再用 Qwen-VL-Reranker 对候选进行精细重排。最后交给大模型生成答案。这套流程能充分发挥 Qwen“跨模态统一检索”的优势。另外如果你想用 Qwen-VL-Embedding 解决某个具体任务最好做微调让它更精通这个垂直场景。七、认知1、“参数量越大越好”是个伪命题。选模型看的不是参数量而是模型的设计目标和你的任务是否匹配。2、Attention is all you need。这句话不仅开启了 Transformer 时代也颇具哲理。像 Qwen-VL-Embedding 这种多目标训练本质上就是在折中。当不完全同向的训练目标被放到一起时我们只能得到一个各方面都“还行”的通才而不是专注于某个方向的专才

查看全文

http://www.gsyq.cn/news/1353833.html