17 天前

掩码场景对比:一种可扩展的无监督3D表征学习框架

Xiaoyang Wu, Xin Wen, Xihui Liu, Hengshuang Zhao
掩码场景对比:一种可扩展的无监督3D表征学习框架
摘要

作为该领域的开创性工作,PointContrast通过利用原始RGB-D帧进行对比学习,实现了无监督的3D表征学习,并在多种下游任务中验证了其有效性。然而,由于两个关键瓶颈的存在,3D领域大规模无监督学习的趋势尚未形成:一是将RGB-D帧作为对比视图进行匹配的效率低下,二是此前研究中提及的令人困扰的模式坍缩(mode collapse)现象。针对这两个挑战,我们将其转化为实际可行的突破口,提出了一种高效且有效的对比学习框架。该框架通过精心设计的数据增强流程与实用的视图混合策略,直接在场景级点云上生成对比视图。其次,我们在对比学习框架中引入了重建学习机制,并设计了精巧的对比交叉掩码(contrastive cross masks),以实现点云颜色与面元法向的重建目标。所提出的掩码场景对比学习(Masked Scene Contrast, MSC)框架能够更高效、更全面地提取3D表征。相较于先前方法,MSC在预训练阶段至少提速3倍,同时在性能上不作妥协。此外,MSC还支持跨多个数据集的大规模3D预训练,进一步提升了模型性能,在多个下游任务中取得了当前最优的微调结果,例如在ScanNet语义分割验证集上达到75.5%的mIoU。