当前位置: 首页 > news >正文

【VCD】Mitigating Object Hallucinations in Large Vision-Language Models through Visual...译读笔记

Mitigating Object Hallucinations in Large Vision-Language Models through Visual Contrastive Decoding

大型视觉语言模型(LVLMs)取得了长足的进步,将视觉识别和语言理解交织在一起,生成的内容不仅连贯而且与语境相契合。尽管取得了成功,LVLMs仍然受困于物体幻觉问题,即模型生成看似合理实则不正确的输出,其中包含图像中不存在的物体。为了缓解这一问题,本文引入了视觉对比解码(VCD),这是一种简单且训练无关的方法,通过对比源自原始视觉输入和扭曲视觉输入的输出分布来工作。所提出的VCD有效减少了对统计偏差和单模态先验的过度依赖,这是导致物体幻觉的两个主要根源。这种调整确保了生成的内容紧密基于视觉输入,从而产生上下文准确的输出。本文的实验表明,VCD 无需额外训练或使用外部工具,在不同的 LVLM 系列中显著缓解了物体幻觉问题。除了缓解物体幻觉外,VCD 在通用 LVLM 基准测试中也表现出色,凸显了其广泛的适用性。代码开源于https://github.com/damo-nlp-sg/vcd。

1. 引言

大型视觉语言模型(LVLMs)已成为计算机视觉和自然语言处理交叉领域不可或缺的一部分,得益于其能够从视觉输入生成语境相关的文本描述的能力,这使得一系列应用得以实现。这些模型的特点在于其能够有效捕捉并转化复杂的视觉模式,形成连贯的语言表征[5_Qwen-VL, 12_InstructBLIP, 18_MultiModal-GPT, 33_Otter, 45_Visual_Instruction_Tuning, 49_Video-ChatGPT, 70_mPLUG-Owl, 73, 78]。

http://www.gsyq.cn/news/142822.html

相关文章:

  • 平台:非缔造者的人生锚点与财富杠杆
  • 越南务工保险在哪里买:成本降60%!工头推高性价比案 - 品牌测评家
  • 2025空压机厂家排行权威榜单揭晓 - 栗子测评
  • WPF HTTPS 通信示例使用说明
  • Java小游戏——贪吃蛇(代码及注释),小白开发游戏,收藏这篇就够了
  • EC2创建逻辑卷lvs
  • 彻底删除逻辑卷lvs
  • 毕业设计项目 大数据二手房数据爬取与分析可视化
  • 无人船,无人车路径规划 遗传算法,考虑最优能耗与最短路径 提供相关参考论文 matlab实现
  • 聚焦行业需求:中国企业 CRM 选型对比(7 大品牌能力深耕 + 场景适配指南)
  • 心理AI智能体:做你身边的“情绪技术伙伴”
  • 别只盯着高手的买卖点了:他们闷声发财的真正秘诀是……
  • 物品复活平台开发总结:软件工程视角下的实践与反思
  • 直播预告 | 从学术源头到产业活水:CANN开源生态的双向赋能新范式
  • 单片机 IO 翻转应用
  • 直播预告 | 独行快,众行远:CANN开源生态的共识、共振与共行
  • 月薪15K到25K的关键一跃:AI时代,产品经理是恐慌失业,还是迎来新机遇?
  • 期末部分复习基础概念题
  • 7个ColorOS宝藏功能!ToDesk远控太懂我!
  • leetcode 困难题 770. Basic Calculator IV 基本计算器 IV
  • 智能体在车联网中的应用:第14天 卷积神经网络(CNN)专精:从卷积原理到LeNet-5实战车辆图像分类
  • 冷冻研磨机哪个品牌好,国产新起之秀飞驰(北京)/净信突出重围 - 品牌推荐大师1
  • 软文发布平台哪家好?5大主流软文发布平台综合评测+选择指南 - 资讯焦点
  • 2025门窗隔热条/耐高温隔热条厂家口碑榜单 - 栗子测评
  • 2025年重庆知名的家具厂商有哪些?主要有哪几家优质公司推荐? - 讯息观点
  • 资产管理数字化转型指南:告别传统台账,拥抱智能管控
  • 全域精准触达:Deepseek优化服务商的价值深耕与效果赋能 - 品牌推荐排行榜
  • 护发精油什么牌子效果最好?7款针对不同发质护发精油实测清单 - 资讯焦点
  • 书匠策AI:本科论文路上的“智能灯塔”,照亮学术探索每一步
  • 2025年12月广州人力资源推荐榜:广州人力资源/派遣/外包/劳务外包/灵活用工/人事代理/互联网平台/咨询/工作招聘/培训、广州人才档案存储,精典人才定制化服务筑牢企业用工根基 - 海棠依旧大