2 个月前

Open-YOLO 3D:实现快速且准确的开放词汇3D实例分割

Boudjoghra, Mohamed El Amine ; Dai, Angela ; Lahoud, Jean ; Cholakkal, Hisham ; Anwer, Rao Muhammad ; Khan, Salman ; Khan, Fahad Shahbaz
Open-YOLO 3D:实现快速且准确的开放词汇3D实例分割
摘要

近期关于开放词汇3D实例分割的研究显示了强大的潜力,但其代价是推理速度较慢和计算需求较高。这种高计算成本通常归因于这些方法对3D剪辑特征的重度依赖,而这些特征需要像“Segment Anything”(SAM)和CLIP这样的计算密集型2D基础模型进行多视图聚合以生成3D特征。因此,这限制了它们在许多需要快速且准确预测的实际应用中的适用性。为此,我们提出了一种快速且准确的开放词汇3D实例分割方法,命名为Open-YOLO 3D,该方法仅利用多视图RGB图像中的2D对象检测来实现开放词汇3D实例分割。我们通过为场景中的对象生成类别无关的3D掩码,并将其与文本提示关联起来来解决这一任务。我们观察到,类别无关的3D点云实例的投影已经包含了实例信息;因此,使用SAM可能会导致冗余,从而不必要地增加推理时间。我们通过实验证明,使用2D对象检测器可以更快地实现文本提示与3D掩码的匹配,并且性能更佳。我们在两个基准数据集ScanNet200和Replica上验证了我们的Open-YOLO 3D,在两种情况下进行了测试:(i) 使用真实掩码的情况,其中给定的对象提案需要标签;(ii) 从3D提案网络生成的类别无关3D提案的情况。我们的Open-YOLO 3D在这两个数据集上均达到了最先进的性能,并且相比文献中最佳现有方法实现了高达约16倍的速度提升。在ScanNet200验证集上,我们的Open-YOLO 3D达到了平均精度(mAP)为24.7%,每场景处理时间为22秒。代码和模型可在github.com/aminebdj/OpenYOLO3D获取。

Open-YOLO 3D:实现快速且准确的开放词汇3D实例分割 | 最新论文 | HyperAI超神经