Chitransformer : Vers une stéréo fiable à partir de indices

Les techniques actuelles de correspondance stéréo sont confrontées à des défis liés à l'espace de recherche restreint, aux régions occluées et à la taille importante des images. Bien que l'estimation de profondeur à partir d'une seule image échappe à ces difficultés et puisse produire des résultats satisfaisants grâce aux indices monoculaires extraits, l'absence de relation stéréoscopique rend la prédiction monocylique moins fiable en tant que telle, en particulier dans des environnements hautement dynamiques ou encombrés. Pour surmonter ces limitations dans les deux scénarios, nous proposons une méthode auto-supervisée d'estimation de profondeur binoculaire inspirée de l'optic-chiasma, dans laquelle un transformateur de vision (ViT) doté de couches d'attention croisée positionnelle à commande (GPCA) est conçu pour permettre une récupération de motifs sensibles aux caractéristiques entre les vues tout en préservant les informations contextuelles étendues accumulées par les mécanismes d'auto-attention. Les indices monoculaires provenant d'une seule vue sont ensuite corrigés de manière conditionnelle par une couche de mélange utilisant les paires de motifs récupérés. Ce design croisé est biologiquement analogue à la structure de l'optic-chiasma dans le système visuel humain, d’où le nom donné : ChiTransformer. Nos expérimentations montrent que cette architecture permet d’atteindre des améliorations substantielles de 11 % par rapport aux approches stéréo auto-supervisées les plus avancées, et qu’elle est applicable aussi bien aux images rectilignes qu’aux images non rectilignes (par exemple, à grand angle type « poisson »).