19 天前

可塑的2.5D卷积:沿深度轴学习感受野用于RGB-D场景解析

Yajie Xing, Jingbo Wang, Gang Zeng
可塑的2.5D卷积:沿深度轴学习感受野用于RGB-D场景解析
摘要

深度数据提供了几何信息,能够推动RGB-D场景解析任务的发展。近年来,多项研究提出了RGB-D卷积算子,通过沿深度轴构建感受野来处理像素之间的三维邻域关系。然而,这些方法通过超参数预先定义深度感受野,依赖于人工参数选择。本文提出一种新型算子——可塑性2.5D卷积(malleable 2.5D convolution),用于学习沿深度轴的动态感受野。该算子包含一个或多个2D卷积核,其核心思想是根据像素间的相对深度差异,将每个像素分配给其中一个卷积核或不分配给任何核。该分配过程被建模为可微分形式,因而可通过梯度下降进行端到端学习。所提出的算子在标准2D特征图上运行,可无缝集成到预训练的CNN网络中。我们在两个具有挑战性的RGB-D语义分割数据集NYUDv2和Cityscapes上进行了大量实验,验证了该方法的有效性及其良好的泛化能力。

可塑的2.5D卷积:沿深度轴学习感受野用于RGB-D场景解析 | 论文 | HyperAI超神经