2 个月前
Omni3D:一种用于野外3D物体检测的大规模基准和模型
Brazil, Garrick ; Kumar, Abhinav ; Straub, Julian ; Ravi, Nikhila ; Johnson, Justin ; Gkioxari, Georgia

摘要
从单张图像中识别三维场景和物体一直是计算机视觉领域的长期目标,其应用范围涵盖机器人技术和增强现实/虚拟现实(AR/VR)。对于二维识别,大规模数据集和可扩展的解决方案已经带来了前所未有的进展。然而,在三维领域,现有的基准测试规模较小,方法主要集中在少数物体类别和特定领域,例如城市驾驶场景。受二维识别成功的启发,我们重新审视了三维物体检测任务,并引入了一个大型基准测试集,称为Omni3D。Omni3D重新利用并整合了现有数据集,包含23.4万张图像,标注了超过300万个实例和98个类别。在如此大规模的三维检测中,由于相机内部参数的变化以及场景和物体类型的丰富多样性,这一任务极具挑战性。为此,我们提出了一种名为Cube R-CNN的模型,该模型旨在通过统一的方法实现对不同相机和场景类型的泛化能力。实验结果表明,Cube R-CNN在更大规模的Omni3D基准测试集及现有基准测试集中均优于先前的工作。最后,我们证明了Omni3D是一个强大的三维物体识别数据集,并展示了它不仅提高了单一数据集上的性能,还可以通过预训练加速新小规模数据集的学习过程。