AdaBins : Estimation de profondeur à l’aide de bacs adaptatifs

Nous abordons le problème de l'estimation d'une carte de profondeur dense de haute qualité à partir d'une seule image RGB. Nous partons d'une architecture de réseau neuronal convolutif encodeur-décodeur de base et nous nous posons la question de la manière dont le traitement global de l'information peut améliorer l'estimation globale de la profondeur. À cette fin, nous proposons un bloc d'architecture basé sur un transformateur, qui divise la plage de profondeur en intervalles (bins) dont la valeur centrale est estimée de manière adaptative par image. Les valeurs finales de profondeur sont ensuite estimées comme combinaisons linéaires des centres des intervalles. Nous appelons ce nouveau bloc de construction AdaBins. Nos résultats montrent une amélioration décisive par rapport à l'état de l'art sur plusieurs jeux de données populaires de profondeur, selon toutes les métriques. Nous validons également l'efficacité du bloc proposé à l'aide d'une étude d'ablation, et fournissons le code ainsi que les poids pré-entraînés du nouveau modèle d'état de l'art.