DEVIANT : Réseau à Équivariance de Profondeur pour la Détection Mono-oculaire d'Objets 3D

Les réseaux neuronaux modernes utilisent des briques de construction telles que les convolutions qui sont équivariantes aux translations 2D arbitraires. Cependant, ces briques de base ne sont pas équivariantes aux translations 3D arbitraires dans la variété projective. Malgré cela, tous les détecteurs 3D monoculaires utilisent ces briques de base pour obtenir les coordonnées 3D, une tâche pour laquelle elles ne sont pas conçues. Ce papier fait le premier pas vers des convolutions équivariantes aux translations 3D arbitraires dans la variété projective. Étant donné que la profondeur est le paramètre le plus difficile à estimer pour la détection monoculaire, ce travail propose un réseau Depth EquiVarIAnt NeTwork (DEVIANT) construit à partir de blocs orientables existants équivariants à l'échelle. En conséquence, DEVIANT est équivariant aux translations de profondeur dans la variété projective, contrairement aux réseaux de base. Cette équivariance supplémentaire en profondeur oblige DEVIANT à apprendre des estimations de profondeur cohérentes, et par conséquent, DEVIANT obtient des résultats d'état de l'art en détection 3D monoculaire sur les jeux de données KITTI et Waymo dans la catégorie image seule et se compare favorablement aux méthodes utilisant des informations supplémentaires. De plus, DEVIANT performe mieux que les réseaux de base lors d'évaluations inter-jeux de données. Le code source et les modèles sont disponibles à l'adresse suivante : https://github.com/abhi1kumar/DEVIANT