Déformation adaptative de patch pour une stéréo multi-vue résiliente aux textures

Ces dernières années, les approches fondées sur l’apprentissage profond ont démontré une grande efficacité dans le domaine du stéréo multi-vues grâce à leur capacité exceptionnelle à extraire des caractéristiques visuelles robustes. Toutefois, la plupart des méthodes basées sur l’apprentissage doivent construire un volume de coût et étendre considérablement le champ réceptif afin d’obtenir des résultats satisfaisants dans des régions de grande ampleur dépourvues de texture, ce qui entraîne une consommation mémoire prohibitive. Pour garantir à la fois une faible consommation mémoire et une résilience aux régions sans texture, nous introduisons de manière innovante le principe de la convolution déformable issue de l’apprentissage profond dans une méthode traditionnelle basée sur PatchMatch. Plus précisément, pour chaque pixel présentant une ambiguïté de correspondance (appelé pixel fiable), nous déformons de manière adaptative le voisinage (patch) centré sur ce pixel afin d’étendre le champ réceptif jusqu’à ce qu’il couvre suffisamment de pixels fiables (sans ambiguïté de correspondance), qui servent d’ancres. Lors de l’application de l’algorithme PatchMatch, le coût de correspondance d’un pixel non fiable est contraint par ces pixels d’ancrage, garantissant ainsi que ce coût atteigne le minimum global à la profondeur correcte, ce qui améliore significativement la robustesse du stéréo multi-vues. Pour détecter un plus grand nombre de pixels d’ancrage et assurer une déformation adaptative du patch plus efficace, nous proposons d’évaluer l’ambiguïté de correspondance d’un pixel donné en surveillant la convergence de la profondeur estimée au fur et à mesure de l’optimisation. En résulte une performance au niveau de l’état de l’art sur les benchmarks ETH3D et Tanks and Temples, tout en maintenant une faible consommation mémoire.