3 个月前

基于注意力机制的多模态融合网络用于语义场景补全

Siqi Li, Changqing Zou, Yipeng Li, Xibin Zhao, Yue Gao
基于注意力机制的多模态融合网络用于语义场景补全
摘要

本文提出了一种端到端的3D卷积网络——基于注意力的多模态融合网络(Attention-based Multi-modal Fusion Network, AMFNet),用于语义场景补全(Semantic Scene Completion, SSC)任务,旨在从单视角RGB-D图像中推断出体素化3D场景的占据状态与语义标签。与以往仅依赖RGB-D图像提取的语义特征的方法不同,所提出的AMFNet通过融合从RGB-D图像中推断2D语义分割的经验以及空间维度中可靠的深度信息,实现了3D场景补全与语义分割的联合优化。该方法通过构建基于2D语义分割的多模态融合架构,并引入残差注意力模块增强3D语义补全网络,从而有效提升模型性能。我们在合成的SUNCG-RGBD数据集和真实的NYUv2数据集上对所提方法进行了验证,实验结果表明,相较于当前最先进的方法,本方法在SUNCG-RGBD数据集上取得了2.5%的性能提升,在NYUv2真实数据集上实现了2.6%的提升。