当前位置: 首页 > news >正文

【即插即用完整代码】AAAI 2026 “一看就懂,先扫后察”大模型让视频异常无处遁形!

专栏内提供试读感兴趣的小伙伴可以订阅一下哈适用于所有的CV二维任务图像分割、超分辨率、目标检测、图像识别、低光增强、遥感检测等每日分享最新的前沿技术助力快速发论文、模型涨点一、摘要当前视频异常检测方法主要分为两类传统深度神经网络方法侧重于异常事件的时间定位而基于大语言模型的方法则强调异常事件的语义理解。然而现有方法中没有一个能够同时支持这两种任务也缺乏相应的数据集。为了解决这一问题研究团队提出了VAGU这是第一个将异常定位与异常理解联合起来的基准数据集。VAGU包含超过7500个真实世界视频涵盖21大类异常事件并提供超过20000个与异常相关的问答对。在此基础上论文提出了一个名为“先扫视后细察”的无训练框架通过文本提示引导模型先进行粗粒度的异常区域定位再进行细粒度的异常理解和时间边界精修。此外论文还提出了JeAUG评估指标能够联合评估语义理解与时间定位的精度克服了传统指标的局限性。大量实验验证了该基准、框架和评估指标的有效性。二、引言视频异常检测在工业自动化、智能监控和智能交通等领域的应用越来越广泛已成为计算机视觉的重要研究方向。然而现有方法存在明显的“能力割裂”现象传统方法只能给出异常发生的时间大语言模型方法则只能描述异常是什么二者缺乏有效协同。论文指出虽然一些视觉语言模型尝试同时实现定位与理解但计算开销极大难以满足实时性要求。为此作者系统探讨了三个关键问题为什么定位与理解缺一不可为什么现有视觉问答和视频时序定位模型在异常检测中表现不佳为什么要采用无训练框架答案在于异常检测需要“何时”与“什么”的协同而现有模型缺乏开放场景下的异常定义标准以及真实世界中异常数据获取困难、标注成本高。基于这些思考作者重新定义了视频异常检测任务并提出了VAGU基准和GtS框架。三、创新点本论文的主要创新点包括以下四个方面第一构建了VAGU数据集这是首个将异常定位与异常理解结合的大规模视频异常检测基准同时提供了客观的异常相关多项选择题。第二提出了GtS无训练框架通过动态与静态文本提示在现有多模态大语言模型上构建异常定位与理解能力。第三设计了JeAUG评估指标能够联合量化语义准确性与定位精度并引入视频时长加权因子使得评估更加公平全面。第四在VAGU上开展了大量实验验证了基准、框架与评估指标的优越性。四、实验在实验部分论文从多个维度对提出的VAGU基准、GtS框架和JeAUG指标进行了系统评估。首先在VAGU数据集上作者对比了多种主流视觉语言模型在异常理解与异常定位任务上的表现。实验结果显示现有模型在异常视频的定位任务上普遍表现不佳例如mPLUG-Owl的IoU仅为12.6%TimeChat最高也仅为14.8%这说明当前模型在异常事件的精确时间定位方面仍有很大提升空间。其次论文评估了GtS框架在不同模型上的提升效果。以Qwen-2.5-VL-7B模型为例原始模型在异常理解任务中得分较低而加入GtS框架后得分从3.61提升至5.50。相比之下简单地将视频均匀分段并增加采样帧数得分仅提升至4.02说明GtS的关键在于引导模型关注异常相关线索而非单纯增加数据量。对于Video-R1等具备推理能力的模型GtS同样显著改善了其在整段视频推理中的性能避免了无关帧的干扰。在异常定位任务中GtS框架通过细粒度的语义理解作为上下文提示显著提升了定位精度。实验表明GtS在不同模型上均带来一致的定位性能提升尤其在需要多段证据融合的因果异常行为中表现更为突出。例如在盗窃或纵火等需要多步骤完成的异常事件中GtS能够有效整合不同片段的信息实现更准确的时间边界定位。在异常问答任务中尽管当前模型在面对开放性问题时仍存在困难但GtS仍然带来了超过10%的总体性能提升。论文还指出当JeAUG评分低于3分时模型往往无法正确理解或定位异常而评分超过3分时模型表现普遍较好因此将3分作为可接受性能的下限。此外作者还对JeAUG指标本身进行了人类偏好对齐实验。十位标注者对同一异常事件的定位结果两两IoU最低约为0.7因此设计了以0.7为满分的分段评分函数并引入视频时长补偿因子使得长视频中的异常定位评估更加合理。与传统指标如ROUGE、BLEU、METEOR相比JeAUG在异常理解任务中的变异系数更低说明其更具稳定性和公平性。最后论文还通过多个案例展示了GtS框架在实际视频中的推理过程。例如在一个包含老人被虐待的视频中GtS通过分段分析成功捕捉到推搡、打脸等异常行为而直接使用VQA模型则输出完全错误或无关的描述。整体而言实验充分证明了VAGU基准的有效性、GtS框架的优越性以及JeAUG指标的合理性。五、结论综上所述本论文针对视频异常检测中“何时”与“什么”能力割裂的问题提出了VAGU基准数据集、GtS无训练框架和JeAUG联合评估指标。VAGU是首个同时支持异常定位与异常理解的大规模数据集GtS框架在无训练条件下显著提升了现有多模态模型的异常检测能力JeAUG指标则实现了更公平、更全面的性能评估。大量实验验证了所提方法的有效性。每日分享最新的前沿技术助力快速发论文、模型涨点欢迎点赞关注评论转发添加下方个人微信
http://www.gsyq.cn/news/1352473.html

相关文章:

  • OpsKat v1.3.0 - SSH、数据库集中管理工具
  • stm32f4 + Helix + Max98357播放mp3文件
  • 【YOLO目标检测全栈实战】66 YOLO模型部署中的“冷启动”问题:如何让模型在真实场景中快速进入状态
  • WebView 被注入的隐形炸弹——远程代码执行漏洞与安全硬核加固指南
  • 从Python到微调:6个月小白也能掌握的大模型应用开发路线图(收藏版)
  • 职业会崩塌,岗位会消失,聪明的技术人该何去何从?
  • 兄弟反目成仇?《易经》深挖人性:猜疑才是最大祸根
  • 小程序数据采集(11)- IDA Pro逆向SO层与ARM汇编寻址详解
  • C++ 第十五章第十六章 案例教程 + 全课程回顾
  • 终极指南:快速掌握Vue 3树形结构组件的完整使用技巧
  • 第七章 指令微调学习(四)基于指令数据对大语言模型进行微调
  • 泰国双清包税哪家好?泰国清关哪家强?2026泰国海运清关强的公司+泰国陆运清关强的公司合集 - 栗子测评
  • 2026避雷塔厂家推荐:新疆角钢塔厂家+变电站架构+新疆钢管塔厂家+钢管杆厂家推荐精选 - 栗子测评
  • 2026 小众暴利 AI 项目,AI短剧带货,简单复制就能盈利
  • 港口数智升级|亚控KingSCADA打造设备精细化运维平台
  • 衔接器CC Switch 小白图文安装,接入Claude Opus4.7+deekseep V4 +千问等等都不在话下,再也不用担心无法配置几个第三方大模型。
  • CANN-Ascend-C存储体系-昇腾NPU的四级缓存怎么用才算对
  • 深入了解指针(3)
  • 2026年最严重终端安全事件:Microsoft Defender双零日漏洞深度解析与防御实战
  • Ollama API 详解(学习笔记)
  • 北光恒电:安捷伦DSOS系列示波器(DSOS104/254/404/804)不开机、输出不正常故障排查
  • 什么是运算符
  • 【NotebookLM风格一致性终极指南】:20年AI产品专家亲授3大校准框架与5步落地法
  • 别再死磕论文修改!paperxie 一站式解决查重 + 降 AIGC 两大难题
  • CAN一致性-物理层--高压通信范围测试
  • 2026年评价高的惠州短视频剪辑/惠州短视频运营专业公司推荐 - 品牌宣传支持者
  • 图智能平台产品选型指南:如何用关系数据提升洞察、风控与决策能力
  • 2026 年 5 月 AI 热点:大模型、硬件、人形机器人全面升级
  • CANN内存优化实战:为什么HBM带宽总是第一个打满的
  • Python __slots__ 入门指南