HyperAIHyperAI
il y a 16 jours

PerspectiveNet : Détection d'objets 3D à partir d'une seule image RGB via des points de perspective

Siyuan Huang, Yixin Chen, Tao Yuan, Siyuan Qi, Yixin Zhu, Song-Chun Zhu
PerspectiveNet : Détection d'objets 3D à partir d'une seule image RGB via des points de perspective
Résumé

La détection d’objets 3D à partir d’une seule image RGB est intrinsèquement ambiguë, nécessitant ainsi des connaissances a priori appropriées et des représentations intermédiaires comme contraintes afin de réduire les incertitudes et d’améliorer la cohérence entre le plan image 2D et le repère 3D de l’espace réel. Pour relever ce défi, nous proposons d’utiliser les points de perspective comme nouvelle représentation intermédiaire pour la détection d’objets 3D, définis comme les projections 2D de points clés 3D locaux selon le modèle de Manhattan, permettant ainsi de localiser un objet ; ces points de perspective satisfont les contraintes géométriques imposées par la projection perspective. Nous introduisons également PerspectiveNet, un modèle entraînable end-to-end qui détecte simultanément, à partir d’une seule image RGB, la boîte englobante 2D, les points de perspective 2D et la boîte englobante 3D de chaque objet. PerspectiveNet présente trois avantages distincts : (i) les boîtes englobantes 3D sont estimées à partir des points de perspective, ce qui permet de combler le fossé entre les boîtes 2D et 3D sans recourir à des a priori sur les formes 3D spécifiques aux catégories d’objets ; (ii) les points de perspective sont prédits via une méthode basée sur un modèle (template), et une perte de perspective est formulée pour préserver les contraintes de perspective ; (iii) une fonction projective différentiable est utilisée pour maintenir la cohérence entre les points de perspective 2D et les boîtes englobantes 3D. Des expériences sur le jeu de données SUN RGB-D montrent que la méthode proposée surpasse significativement les approches existantes basées sur RGB pour la détection d’objets 3D.

PerspectiveNet : Détection d'objets 3D à partir d'une seule image RGB via des points de perspective | Articles de recherche récents | HyperAI