11 天前
OA-CNNs:面向3D语义分割的全适应稀疏CNN
Bohao Peng, Xiaoyang Wu, Li Jiang, Yukang Chen, Hengshuang Zhao, Zhuotao Tian, Jiaya Jia

摘要
2020年代三维感知技术的迅猛发展始于点云Transformer的提出。这类模型迅速超越了稀疏卷积神经网络(sparse CNNs),成为三维语义分割等任务的最先进方法。然而,稀疏CNN因其计算效率高、部署简便等优势,依然具有重要价值。在本研究中,我们重新审视稀疏CNN的设计差异,并探索其性能上限。研究发现,性能差距的关键在于模型的自适应能力。为此,我们提出两个核心组件:空间自适应感受野(adaptive receptive fields)和自适应关系建模(adaptive relation),以弥合稀疏CNN与Transformer之间的性能鸿沟。基于这一探索,我们提出了Omni-Adaptive 3D CNNs(OA-CNNs)——一类新型网络家族,通过引入轻量级模块,在几乎不增加计算开销的前提下,显著提升了稀疏CNN的自适应能力。令人瞩目的是,OA-CNNs完全不依赖自注意力机制,在室内与室外场景中均实现了优于点云Transformer的精度表现,同时具备更低的延迟和内存消耗。具体而言,在ScanNet v2、nuScenes和SemanticKITTI的验证集上,OA-CNNs分别取得了76.1%、78.9%和70.6%的mIoU(平均交并比),且推理速度最高可达Transformer类模型的5倍。这一成果揭示了纯稀疏CNN在三维感知任务中具备超越Transformer架构的巨大潜力。