HyperAIHyperAI

Command Palette

Search for a command to run...

Open-YOLO 3D:实现快速且准确的开放词汇3D实例分割

Boudjoghra Mohamed El Amine ; Dai Angela ; Lahoud Jean ; Cholakkal Hisham ; Anwer Rao Muhammad ; Khan Salman ; Khan Fahad Shahbaz

摘要

近期关于开放词汇3D实例分割的研究显示了强大的潜力,但其代价是推理速度较慢和计算需求较高。这种高计算成本通常归因于这些方法对3D剪辑特征的重度依赖,而这些特征需要像“Segment Anything”(SAM)和CLIP这样的计算密集型2D基础模型进行多视图聚合以生成3D特征。因此,这限制了它们在许多需要快速且准确预测的实际应用中的适用性。为此,我们提出了一种快速且准确的开放词汇3D实例分割方法,命名为Open-YOLO 3D,该方法仅利用多视图RGB图像中的2D对象检测来实现开放词汇3D实例分割。我们通过为场景中的对象生成类别无关的3D掩码,并将其与文本提示关联起来来解决这一任务。我们观察到,类别无关的3D点云实例的投影已经包含了实例信息;因此,使用SAM可能会导致冗余,从而不必要地增加推理时间。我们通过实验证明,使用2D对象检测器可以更快地实现文本提示与3D掩码的匹配,并且性能更佳。我们在两个基准数据集ScanNet200和Replica上验证了我们的Open-YOLO 3D,在两种情况下进行了测试:(i) 使用真实掩码的情况,其中给定的对象提案需要标签;(ii) 从3D提案网络生成的类别无关3D提案的情况。我们的Open-YOLO 3D在这两个数据集上均达到了最先进的性能,并且相比文献中最佳现有方法实现了高达约16倍的速度提升。在ScanNet200验证集上,我们的Open-YOLO 3D达到了平均精度(mAP)为24.7%,每场景处理时间为22秒。代码和模型可在github.com/aminebdj/OpenYOLO3D获取。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供