UniSeg3D 三维场景理解框架
UniSeg3D 是一种统一的三维场景理解框架,由华中科技大学的研究人员于 2024 年提出,相关论文成果为「A Unified Framework for 3D Scene Understanding」,已发表于 NeurIPS 2024 。该框架能够在同一模型内实现 6 种不同的 3D 点云分割任务,包括全景分割 (panoptic segmentation) 、语义分割 (semantic segmentation) 、实例分割 (instance segmentation) 、交互式分割 (interactive segmentation) 、指代表达分割 (referring segmentation) 和开放词汇语义分割 (open-vocabulary segmentation) 。
niSeg3D 框架将这些任务统一到一个模型中,通过共享表示和处理机制来促进任务间的信息共享,从而提升对三维场景的全面理解。该框架通过设计知识蒸馏 (knowledge distillation) 和对比学习 (contrastive learning) 方法来传递不同任务之间的特定知识,从而增强模型性能。
在实验部分,UniSeg3D 在 3 个基准测试中 (ScanNet20 、 ScanRefer 和 ScanNet200),均展现出超越当前最先进方法 (SOTA) 的性能。