HyperAIHyperAI
il y a 2 mois

Omni3D : Un Grand Jalon et Modèle pour la Détection d'Objets 3D dans le Milieu Naturel

Brazil, Garrick ; Kumar, Abhinav ; Straub, Julian ; Ravi, Nikhila ; Johnson, Justin ; Gkioxari, Georgia
Omni3D : Un Grand Jalon et Modèle pour la Détection d'Objets 3D dans le Milieu Naturel
Résumé

La reconnaissance de scènes et d'objets en 3D à partir d'une seule image est un objectif de longue date de la vision par ordinateur, avec des applications dans la robotique et l'AR/VR (réalité augmentée/réalité virtuelle). Pour la reconnaissance 2D, de grands ensembles de données et des solutions évolutives ont conduit à des avancées sans précédent. En 3D, les benchmarks existants sont de petite taille et les approches se spécialisent dans quelques catégories d'objets et des domaines spécifiques, par exemple les scènes de conduite urbaine. Inspirés par le succès de la reconnaissance 2D, nous réexaminons la tâche de détection d'objets en 3D en introduisant un grand benchmark appelé Omni3D. Omni3D réutilise et combine des ensembles de données existants, aboutissant à 234 000 images annotées avec plus de 3 millions d'instances et 98 catégories. La détection 3D à cette échelle est difficile en raison des variations dans les paramètres intrinsèques des caméras et de la grande diversité des types de scènes et d'objets. Nous proposons un modèle appelé Cube R-CNN, conçu pour généraliser sur différents types de caméras et de scènes avec une approche unifiée. Nous montrons que Cube R-CNN surpasse les travaux antérieurs sur le plus vaste Omni3D ainsi que sur les benchmarks existants. Enfin, nous démontrons que Omni3D est un ensemble de données puissant pour la reconnaissance d'objets en 3D et que son utilisation améliore les performances sur un seul ensemble de données et peut accélérer l'apprentissage sur de nouveaux ensembles plus petits grâce au pré-entraînement.