摘要

近期关于开放词汇3D实例分割的研究显示了强大的潜力，但其代价是推理速度较慢和计算需求较高。这种高计算成本通常归因于这些方法对3D剪辑特征的重度依赖，而这些特征需要像“Segment Anything”（SAM）和CLIP这样的计算密集型2D基础模型进行多视图聚合以生成3D特征。因此，这限制了它们在许多需要快速且准确预测的实际应用中的适用性。为此，我们提出了一种快速且准确的开放词汇3D实例分割方法，命名为Open-YOLO 3D，该方法仅利用多视图RGB图像中的2D对象检测来实现开放词汇3D实例分割。我们通过为场景中的对象生成类别无关的3D掩码，并将其与文本提示关联起来来解决这一任务。我们观察到，类别无关的3D点云实例的投影已经包含了实例信息；因此，使用SAM可能会导致冗余，从而不必要地增加推理时间。我们通过实验证明，使用2D对象检测器可以更快地实现文本提示与3D掩码的匹配，并且性能更佳。我们在两个基准数据集ScanNet200和Replica上验证了我们的Open-YOLO 3D，在两种情况下进行了测试：(i) 使用真实掩码的情况，其中给定的对象提案需要标签；(ii) 从3D提案网络生成的类别无关3D提案的情况。我们的Open-YOLO 3D在这两个数据集上均达到了最先进的性能，并且相比文献中最佳现有方法实现了高达约16倍的速度提升。在ScanNet200验证集上，我们的Open-YOLO 3D达到了平均精度（mAP）为24.7%，每场景处理时间为22秒。代码和模型可在github.com/aminebdj/OpenYOLO3D获取。

源 PDF