当前位置: 首页 > news >正文

[Paper Reading] UniME-V2: MLLM-as-a-Judge for Universal Multimodal Embedding Learning

目录
  • UniME-V2: MLLM-as-a-Judge for Universal Multimodal Embedding Learning
  • TL;DR
  • Method
    • MLLM-as-a-Judge for Hard Negatives Mining
      • MLLM Judgment Based Training Framework
    • Q&A (从上面可以找到答案)
  • Experiment
  • 参考链接

UniME-V2: MLLM-as-a-Judge for Universal Multimodal Embedding Learning

link
时间:
单位:MiroMind AI、The University of Sydney、M.R.L. Team
相关领域:
作者相关工作:与UniME的一作二作相同:Tiancheng Gu、Kaicheng Yang
被引次数:1
项目主页:https://garygutc.github.io/UniME-v2/

TL;DR

提出UniME-V2多模态embedding学习算法,解决负样本多样性问题。
方法:
1.通过全局检索构建一个潜在的难负样本集合;
2.提出MLLM-as-a-Judge机制,利用多模态大模型获取query-candidate的语义相似性分数,这些分数可以用来过滤错误负样本、难负样本挖掘 以及 提升负样本多样性与质量。并且这样分数还可用来作为soft label,以防止正负样本对非正即负的Hard约束;
3.UniME-V2-Reranker,可以使用joint-wise与list-wise的方式挖掘难负样本;

上述改进的示意图
image

Method

image

MLLM-as-a-Judge for Hard Negatives Mining

Step1: 构建潜在难负样本集合

使用VLM2Vec模型针对每个query获取candidates中top50的负样本;该过程是一次性离线执行。

Step2: 相似度打分
image
用Qwen2.5VL-7B的MLLM模型采用下面prompt给每个pair进行相似度打分,该过程MLLM不会被微调,直接拿来用。
image

Step3: 错误/难负样本采样

  • 错误负样本​​:通过MLLM生成的语义匹配分数(S)来识别。若候选样本的分数超过阈值(\(α = σ_{q,ct - β}\),其中β=0.01),则被判定为错误负样本并排除。
  • 难负样本​​:在排除错误负样本后,剩余的候选样本中,通过循环采样策略(cyclical sampling)选择多样性高的难负样本。若筛选后的样本少于10个,则通过复制或随机选择补充。

MLLM Judgment Based Training Framework

Loss
使用上一阶段MLLM得到的语义相似度矩阵作为GroundTruth,建立相似度矩阵之间分布的Loss。
image
UniME-V2-Reranker

  • pair-wise loss: query与target样本\(c_t\)间CE Label为1,query与最难的负样本\(c_{h}\)间的CE Label为0。
    image
    注意pair-wise loss与triplet loss形式比较接近,但两者还是有一些本质区别,例举如下:
    image
  • list-wise loss: 根据MLLM的相似度分数,提取出top-k的候选,将target随机插入到位置I,让Reranker模型预测对应的位置I。
    image
  • 总结:
    联合 pair-wise(学习基本匹配判别)和 list-wise(学习全局排序)的两种优化方式,提升模型排序能力。最终推理时使用下面prompt提取top1 condidate。
    image

Q&A (从上面可以找到答案)

Q: 如何全局检索构建负样本集合?什么样的频率?
Q: MLLM as a judge是什么了什么MLLM模型?错误负样本与难负样本分别如何处理?
Q: UniME-V2-Reranker是一个模型吗?joint-wise与list-wise分别指得是什么?
Q: 整个pipeline有哪些模型需要训练?
a.使用相似度矩阵训练的UniME-V2模型;b.UniME-V2-Reranker模型;

Experiment

主实验
image
image
是否用Reranker,用不同Reranker的对比实验
image
ablation study
image
不同task
image

参考链接

https://zhuanlan.zhihu.com/p/1962104007448302360

http://www.gsyq.cn/news/34614.html

相关文章:

  • 2025-10-30 vue中v-show和v-if同时使用,哪个生效==》v-if优先级大于v-show
  • 【学习笔记】带权并查集
  • 2025年质量好的洗菜盆厨房水槽优质厂家推荐榜单
  • 2025年知名的GXN-CMS型碳分子筛实力源头
  • 2025年10月中国离婚财产分割律师榜单:官方资质与用户口碑综合排名
  • 2025年热门的上海行星式搅拌机设备行业内口碑厂家排行榜
  • 2025年靠谱的精冲工艺座椅齿板厂家最新TOP排行榜
  • 修改京东商城官网title为百度商城
  • 2025 年散热器厂家最新推荐榜,聚焦企业技术实力与市场口碑深度解析及多领域适配能力储能液冷/锂电/铜管串铝翅片散热器公司推荐
  • 图纸安全外发策略,保障企业知识产权与市场竞争力
  • 体素化
  • 吃数篇 酉鸡
  • Web信息的物联网设备指纹如何生成
  • 思维day2
  • 2025年口碑好的家装液压铰链厂家最新权威实力榜
  • 2025年热门的压花韩国绒厂家最新热销排行
  • 2025年比较好的双螺杆清洗料厂家推荐及采购参考
  • 2025年知名的德国品牌缓冲铰链最新TOP品牌厂家排行
  • k8s 默认进入容器的用户是什么
  • 第六届大数据与社会科学国际学术会议
  • 告别盲目跟进!纷享销客CRM销售漏斗助力医疗器械行业实现精准过程管理
  • 2025年热门的双功能缓冲隐藏轨厂家最新实力排行
  • vs 无法加载一个或多个断点
  • 平衡树splay
  • 2025年靠谱的白刚玉颗粒厂家推荐及选择指南
  • 2025年热门的免浆河虾仁厂家推荐及选择指南
  • 2025.10.30——1蓝
  • 平衡树(二叉排序树)
  • 分享几个我珍藏的JS冷门但实用的技巧
  • Ubantu下创建虚拟环境的一些经验