17 天前

MSeg:面向多领域语义分割的综合数据集

John Lambert, Zhuang Liu, Ozan Sener, James Hays, Vladlen Koltun
MSeg:面向多领域语义分割的综合数据集
摘要

我们提出MSeg,这是一个整合了来自不同领域语义分割数据集的综合性数据集。若简单地将各组成部分数据集直接合并,由于其分类体系(taxonomy)和标注规范不一致,会导致模型性能显著下降。为此,我们通过重新标注超过8万张图像中的22万余个物体掩码,对分类体系进行统一,并实现像素级标注的一致性对齐,这一过程累计耗时超过1.34年的人工标注工作量。由此构建的复合数据集,使得仅通过一个统一模型即可在多个领域间有效运行,并具备对训练阶段未见数据集的良好泛化能力。为系统评估模型的鲁棒性,我们采用零样本跨数据集迁移作为基准。实验表明,相较于在单一数据集上训练,或未经上述处理的简单数据集混合方式,基于MSeg训练所得模型展现出显著更强的鲁棒性。在WildDash-v1鲁棒语义分割排行榜上,该模型在未接触任何WildDash数据的情况下排名第一。为进一步检验模型的极端泛化能力,我们在2020年鲁棒视觉挑战赛(Robust Vision Challenge, RVC)中对模型进行了评估。值得注意的是,MSeg训练集仅包含RVC七大数据集中的三个,且RVC的评估分类体系更为细致、复杂。令人惊讶的是,我们的模型仍表现出优异性能,在该挑战中位列第二。为了更全面地评估我们距离实现鲁棒、高效、完整的场景理解这一终极目标还有多远,我们进一步基于MSeg数据集训练了实例分割与全景分割模型,从而超越了单纯的语义分割范畴。此外,我们还系统评估了多种工程设计决策与性能指标,包括图像分辨率与计算效率等。尽管当前模型距离这一宏伟目标仍有较大差距,但本研究的全面评估为推动该领域的发展提供了重要基础。我们已将所有训练模型与代码开源,供学术界与工业界共享使用。

MSeg:面向多领域语义分割的综合数据集 | 最新论文 | HyperAI超神经