2 个月前

自监督模型适应用于多模态语义分割

Abhinav Valada; Rohit Mohan; Wolfram Burgard

摘要

可靠地感知和理解场景是机器人在现实世界中操作的重要前提。这一问题本质上具有挑战性，因为存在多种物体类型以及由不同光照和天气条件引起的外观变化。利用互补模态可以学习到更加丰富且对这些扰动具有鲁棒性的语义表示。尽管近年来取得了巨大进展，但大多数多模态卷积神经网络方法直接将各模态流的特征图拼接在一起，导致模型无法仅关注相关互补信息进行融合。为了解决这一局限性，我们提出了一种多模态语义分割框架，该框架能够自监督地动态适应特定模态特征的融合，并对物体类别、空间位置和场景上下文敏感。具体而言，我们设计了一种包含两个特定模态编码器流的架构，通过我们提出的自监督模型适应融合机制将中间编码器表示融合到单个解码器中，从而最优地结合互补特征。由于中间表示在不同模态之间未对齐，我们引入了一种注意力机制以提高相关性。此外，我们还提出了一种计算效率高的单模态分割架构——AdapNet++，该架构集成了新的多尺度残差单元编码器和高效的空洞空间金字塔池化（Atrous Spatial Pyramid Pooling, ASPP），其有效感受野更大且参数量减少了10倍以上，并配有一个强大的解码器及多分辨率监督方案以恢复高分辨率细节。在多个基准数据集上的全面实证评估表明，我们的单模态和多模态架构均达到了当前最佳性能。