16 天前

语言引导的野外室内3D语义分割

David Rozenberszki, Or Litany, Angela Dai
语言引导的野外室内3D语义分割
摘要

近年来,基于深度神经网络的3D语义分割取得了显著进展,在现有数据集上的性能迅速提升。然而,当前的3D语义分割基准测试所包含的类别数量仍然有限——例如,ScanNet和SemanticKITTI数据集的类别均不足30个,难以充分反映真实环境的多样性(例如,语义图像理解通常涵盖数百至数千个类别)。为此,我们提出在ScanNet数据集基础上构建一个扩展的新基准,涵盖200个类别,类别数量较以往研究提升了近一个数量级。这一大规模类别设置也带来了显著的自然类别不平衡问题,对现有3D语义分割方法构成了严峻挑战。为在该背景下学习更具鲁棒性的3D特征,我们提出一种基于语言驱动的预训练方法,旨在促使那些训练样本稀缺的类别所对应的3D特征,能够靠近其预训练的文本嵌入表示。大量实验表明,我们的方法在所提出的基准上显著优于当前最先进的3D预训练方法,整体性能提升达9%(相对mIoU),在标注数据极为有限的场景下(仅使用5%标注数据),仍可实现25%的相对mIoU提升,充分验证了方法的有效性与泛化能力。

语言引导的野外室内3D语义分割 | 最新论文 | HyperAI超神经