
摘要
在复杂场景中实现鲁棒且可靠的语义分割,对于自动驾驶安全驾驶、夜间救援等实际应用至关重要。在大多数现有方法中,通常以RGB图像作为输入。然而,这些方法仅在理想天气条件下表现良好;当面临雨天、强光过曝或低光照等不利环境时,往往难以获得令人满意的结果。为此,近年来研究者开始探索多光谱语义分割,即同时利用RGB图像与热红外(RGBT)图像作为输入。这种方法显著提升了复杂场景及恶劣条件下图像目标的分割鲁棒性。然而,当前大多数方法仍局限于单一RGBT图像输入,难以充分应对动态真实场景的需求。基于上述观察,本文提出了一项相对较新的任务——多光谱视频语义分割(Multispectral Video Semantic Segmentation,简称MVSS)。为此,我们构建了一个自有的MVSeg数据集,包含738段经过校准的RGB与热红外视频序列,并配有3,545个细粒度的像素级语义标注,涵盖26个类别。该数据集涵盖了白天与夜间多种具有挑战性的城市场景。此外,我们提出了一种高效的MVSS基线模型——MVNet,据我们所知,这是首个能够联合学习多光谱与时空上下文语义表征的模型。我们在MVSeg数据集上对多种语义分割模型进行了全面实验。实验结果表明,引入多光谱视频输入可显著提升语义分割性能,同时验证了所提出的MVNet基线模型的有效性。