当前位置: 首页 > news >正文

[PaperReading] GME: Improving Universal Multimodal Retrieval by Multimodal LLMs

目录
  • GME: Improving Universal Multimodal Retrieval by Multimodal LLMs
  • TL;DR
  • Method
    • Model
    • 多模态数据
    • 数据合成
  • Experiment
  • 效果可视化
  • 总结与思考

GME: Improving Universal Multimodal Retrieval by Multimodal LLMs

link
时间:25.04
单位:香港理工大学、Tongyi
相关领域:使用MLLM做多模态检索
作者相关工作:GME: Improving Universal Multimodal Retrieval by Multimodal LLMs
被引次数:38
项目主页:https://huggingface.co/Alibaba-NLP/gme-Qwen2-VL-2B-Instruct

TL;DR

多模态训练数据存在模态不平衡的问题,本工作改进:1.研发一种训练数据合成方法,构建了大规模、高质量多模态训练数据集;2.研发一种稠密的MLLM检索器名为GME(General Multimodal Embedding)。3.提出一个新的Benchmark名为UMRB(Universal Multimodal Retrieval Benchmark)。

多模态检索与之前单模态检索或者跨模态检索的差异
image

Method

Model

Loss: InfoNCE
image
负样本
Stage1:初始训练​​

  • 使用随机选择的负候选进行训练
  • 得到初始模型M1

Stage2:

  • 使用M1为每个查询检索前K个候选
  • 从非相关候选中选择硬负样本
  • 使用这些硬负样本进一步训练M1,得到最终模型
    image

多模态数据

发现一:任务特异性优势
在单一数据类型上训练的模型在相应检索任务中表现最佳
例如:T→T数据训练的模型在文本检索任务中性能最优
发现二:混合数据优势
不同数据类型的平衡混合能增强各种设置下的性能
增加训练模态的多样性有效提升模型的整体检索能力
备注:IT(Image Text)、VD(Visual Document,指 包含丰富文本内容的图像,例如 图表等)
image

数据合成

workflow调用大模型生成condidate对应的多模态Query

Doc2Query生成:根据condidate过LLM生成Query
实体提取与查询重写:提取Query中的实体以及查询重写 (仍然使用LLM)
图像检索与生成:根据实体查询Google找到匹配图片,或者使用FLUX生成图片

image

Experiment

image

不同图片合成方法的影响
image

image

效果可视化

https://zhuanlan.zhihu.com/p/19360760482
https://zhuanlan.zhihu.com/p/1930993401488216568

总结与思考

http://www.gsyq.cn/news/38544.html

相关文章:

  • 2025年11月市场地位认证机构排名榜:服务维度与行业口碑全面解析
  • MATLAB2025b安装教程
  • Comparable接口
  • 软件授权安全:如何筑牢防护壁垒
  • Java 时间日期类笔记
  • Day11伪类选择器
  • 检测php get变量是否存在以及是否有值
  • JAVA中三个类的对比:String、StringBuffer和StringBuilder
  • 2025年11月工装装修公司专业排行:深度评测与使用指南
  • 欢迎报名!Kusica 基于K8s的多方安全协同框架11月亮相杭州KCD
  • 2025年11月工装装修公司推荐榜单:权威评测与选择指南
  • 2025 年 11 月沈阳办公家具厂家推荐排行榜,办公桌,办公椅,文件柜,会议桌,办公沙发公司推荐
  • 2025 年 11 月沈阳办公家具厂家推荐排行榜,办公桌,办公椅,文件柜,会议桌,办公沙发公司推荐,品质与设计双重保障!
  • 单机模式下nacos的安装与使用
  • Pymarchenko程序
  • 软件需求分析课堂加分 - 2305
  • 2025年11月黄褐斑改善产品对比榜:五款高回购单品全维度评价
  • #20232329易杨文轩 2025-2026-1 《网络与系统攻防技术》 实验四实验报告
  • 前端chatbox
  • 2025年11月合肥建筑律师推荐榜:全过程覆盖能力对比评价
  • 2025 年塑料挤出设备厂家最新推荐榜单:深度甄选聚焦技术实力、客户认可及设备性能全方位测评塑料板材挤出设备/塑料挤出设备生产线/塑料管材挤出设备生产线公司推荐
  • AtCoder Beginner Contest 430 ABCDEF 题目解析
  • 2025年广东空运到印度专线机构权威推荐榜单:广东到印度的海运平台/广东空运到印度物流平台/广东到印度专线双清包税服务源头机构精选
  • 2025 年最新推荐锰钢编织筛网厂家排行榜,涵盖耐磨矿用等多类型产品,精选五大靠谱品牌助力企业采购滚筒/平筛/黑钢锰钢编织筛网公司推荐
  • 用四端法测量Fe-Cr-Al丝的电阻率
  • 2025 年国际高中学校最新推荐榜,聚焦办学资质与升学成果深度解析及教学质量与综合实力全面评估松江区 / 青浦区 / 奉贤区 / 崇明区国际高中推荐
  • 2025年汽车超薄低音源头厂家权威推荐榜单:汽车音响超薄低音/汽车超薄低音炮/汽车音响超薄低音炮源头厂家精选
  • 2025年保洁服务公司新排行榜推荐,海獭顾家无忧保洁服务详细介绍
  • 2025 年阳台光伏厂家推荐:昱电宝依托昱能科技技术积淀,打造场景化光伏解决方案与服务体系
  • 【2025-11-01】连岳摘抄