2025_NIPS_ConDaFormer: Disassembled Transformer with Local Structure Enhancement for 3D Point Clo...
文章主要内容与创新点总结
一、主要内容
本文聚焦3D点云理解任务中Transformer模型的效率与几何特征建模问题,提出了一种名为ConDaFormer的新型Transformer块,用于构建3D点云处理的骨干网络。
3D点云数据具有海量点数(超10万)、不规则性和稀疏性等特点,传统全局自注意力机制计算成本极高,现有局部窗口注意力(如立方窗口)仍存在计算量过大、缺乏局部几何结构建模的问题。ConDaFormer通过两大核心设计解决上述痛点:一是将3D立方窗口拆解为三个正交的2D平面(XY、XZ、YZ平面),在相似注意力覆盖范围内减少查询-键(Query-Key)对数量,降低计算开销;二是引入基于深度稀疏卷积(DSConv)的局部结构增强(LSE)模块,在注意力前后分别进行特征聚合,弥补拆解操作导致的上下文丢失,同时建模局部3D几何先验。
基于ConDaFormer构建的网络在多个3D点云基准测试中验证了有效性:在ScanNet v2、S3DIS、ScanNet200等语义分割数据集上取得当前最优或极具竞争力的性能;在SUN RGB-D目标检测任务中表现与现有方法相当且参数更少;在ModelNet40(形状分类)、ShapeNet-Part(部件分割)、SemanticKITTI(室外语义分割)等数据集上也展现出良好的泛化能力。
二、创新点
- 拆解窗口注意力模块:将3D立方窗口拆解为三个正交2D平面,在不显著降低性能的前提下大幅减少计算开销,同时可在忽略额外计算成本的情况下扩大注意力范围,解决了3D局部注意力计算量大的核心问题。
