Approfondir la généralisation de l'estimation de profondeur monoscopique auto-supervisée

L’estimation de profondeur monoscopique auto-supervisée a récemment fait l’objet d’une étude intensive. La plupart des travaux se sont concentrés sur l’amélioration des performances sur des jeux de données standard, tels que KITTI, tout en proposant peu d’expérimentations sur la capacité de généralisation. Dans cet article, nous étudions les architectures fondamentales (par exemple, les réseaux de neurones convolutifs, les Transformers et les modèles hybrides CNN-Transformer) en vue d’améliorer la généralisation de l’estimation de profondeur monoscopique. Nous évaluons d’abord les modèles les plus avancés sur divers jeux de données publics, jamais rencontrés durant l’entraînement du réseau. Ensuite, nous analysons l’impact des représentations biaisées par le texte et par la forme en utilisant différents jeux de données modifiés par décalage de texture, que nous avons générés. Nous observons que les Transformers présentent un fort biais vers la forme, tandis que les CNN montrent un fort biais vers le texte. Nous constatons également que les modèles biaisés vers la forme offrent une meilleure capacité de généralisation pour l’estimation de profondeur monoscopique par rapport aux modèles biaisés vers le texte. À partir de ces observations, nous proposons une nouvelle architecture hybride CNN-Transformer, nommée MonoFormer, comprenant un module d’agrégation adaptative de caractéristiques à plusieurs niveaux. L’intuition derrière MonoFormer repose sur l’augmentation du biais vers la forme grâce à l’utilisation de Transformers, tout en compensant la faible capacité de localité des Transformers par une fusion adaptative de représentations à plusieurs niveaux. Des expérimentations étendues montrent que la méthode proposée atteint des performances de pointe sur divers jeux de données publics, et présente également la meilleure capacité de généralisation parmi les méthodes concurrentes.