当前位置：首页 > news >正文

2025_NIPS_Parts of Speech–Grounded Subspaces in Vision-Language Models

news 2026/5/25 6:24:05

文章总结与翻译

一、主要内容

该研究针对CLIP等视觉-语言（VL）模型中潜在表示存在视觉属性纠缠的问题，提出了一种基于词性（PoS）监督的子空间学习方法，旨在分离图像/文本表示中不同的视觉变化模式（如内容与外观）。

核心问题：CLIP的联合视觉-语言空间表示会将多种视觉属性（如物体类别、外观风格、动作等）纠缠在一起，导致模型易受攻击（如排版攻击）、生成结果不可预测（如输入艺术家名字同时生成人物和其作品风格），且下游任务性能受限于这种纠缠。
解决思路：利用自然语言中词性与特定视觉变化模式的语义关联（名词对应物体内容、形容词对应外观特征等），学习几何感知的子空间，在保留数据流形几何结构的同时，分离目标视觉属性与其他无关属性的表示。
技术方案：
- 构建目标函数，通过迹最大化问题学习词性特定子空间，最大化目标词性的表示方差，同时最小化其他词性的方差，且存在闭式解（目标矩阵的前k个特征向量）。
- 考虑到CLIP表示位于超球面流形，将子空间学习扩展到流形的切空间中，通过对数映射和指数映射实现流形几何结构的尊重。
实验验证：
- 定性验证：通过文本到图像生成模型，展示子空间能分离内容与风格（如仅生成艺术家作品或仅生成艺术家本人），且能移除特定视觉主题（如血腥风格、艺术家模仿风格）。
- 定量验证：在15个数据集的零样本分类任务中，14个数

http://www.gsyq.cn/news/1375439.html

相关文章：

Java IO：流、File文件、字节流、字符流、序列化与反序列化

IDEA 2026.2 EAP 2 新特性：Live Templates 升级

别再只会用`echo mem ＞ /sys/power/state`了：手把手带你理解Linux内核的三种休眠模式

神经模拟器超越训练数据：从误差纠正到高效科学计算

山东大学创新实训——诈骗克星个人博客六

座机号码认证后能显示哪些信息？展示企业品牌名称+logo

硬件工程师，每天5分钟（8）——为什么 DDR5 最怕电容摆错位置？差1厘米，效果可能差10倍

云曦期中复现wp

Rancher 安装与配置文档

打破边界：AI如何拓展焦点小组和深度访谈的深度与广度？

网络总共分几层？它们之间有什么关系？

林影通OCR识别管理平台 —— 林业图片经纬度智能识别，一键提取经纬度！

search_reports 减少AI里Tokens 消耗

【云服务器内网穿透】Debian + Nginx + HTTPS + SSH反向隧道

从备份到部署：用Clonezilla为网吧/机房批量克隆系统镜像的实战流程

在Ubuntu 22.04上，用AutoDockTools给蛋白-小分子做对接，保姆级避坑指南

2026年智己LS8优势深度解析：家庭SUV续航痛点与实用价值 - 品牌推荐

华为OD机试真题新系统 2026-05-20 C++ 实现【多模型版本的最优调度】

鸿蒙 Location Kit：设备定位与位置服务(一)

GNN+CatBoost：图神经网络特征提取在材料性能预测中的实践

低代码平台和AI低代码平台

核方法检验条件均值函数：非参数统计与机器学习实践

Docker从安装到代码打包到部署云服务器全过程保姆级教程

机器学习赋能冷等离子体种子处理：Extra Trees模型精准预测发芽率提升

2025-2026年尚百年电话查询：定制全铝家居前需核实资质与合同条款 - 品牌推荐

工业相机和镜头参数和选型

Liunx常用命令

RHEL9.2保姆级安装教程：从VMware虚拟机创建到系统配置的完整避坑指南

Linux系统篇，开发工具（六）：文件的编译配置、调试的理解、cgdb和gdb的操作使用

基于对比学习的机器遗忘框架CoUn：原理、实现与调优指南