
摘要
利用跨多种模态的信息已知可以提高多模态分割任务的性能。然而,由于每种模态的独特特性,有效融合不同模态的信息仍然具有挑战性。在本文中,我们提出了一种新颖的融合策略,能够有效地融合来自不同模态组合的信息。此外,我们还提出了一种新的模型——多模态分割变换器(Multi-Modal Segmentation TransFormer, MMSFormer),该模型集成了所提出的融合策略,用于执行多模态材料和语义分割任务。MMSFormer在三个不同的数据集上超越了当前最先进的模型。从仅使用一种输入模态开始,随着更多模态的加入,性能逐步提升,展示了融合模块在结合来自不同输入模态的有用信息方面的有效性。消融研究表明,融合块中的不同模块对整体模型性能至关重要。此外,我们的消融研究还强调了不同输入模态在识别不同类型材料时提高性能的能力。代码和预训练模型将在https://github.com/csiplab/MMSFormer上提供。