GA-Net : Réseau d'agrégation guidée pour le matching stéréoscopique de bout en bout

Dans la tâche de correspondance stéréoscopique, l'agrégation du coût de correspondance est cruciale dans les méthodes traditionnelles et les modèles de réseaux neuronaux profonds pour estimer précisément les disparités. Nous proposons deux nouvelles couches de réseau neuronal, visant respectivement à capturer les dépendances de coût locales et globales sur l'image entière. La première est une couche d'agrégation semi-globale, qui constitue une approximation différentiable de la correspondance semi-globale. La seconde est une couche d'agrégation locale guidée, qui suit une stratégie de filtrage traditionnelle des coûts pour affiner les structures fines. Ces deux couches peuvent être utilisées pour remplacer la couche convolutive 3D largement utilisée, qui est coûteuse en termes de calcul et consommatrice de mémoire en raison de sa complexité cubique en calcul et en mémoire. Dans nos expériences, nous montrons que les réseaux dotés d'un bloc d'agrégation guidée à deux couches surpassent facilement le GC-Net, actuellement l'état de l'art, qui comporte dix-neuf couches convolutives 3D. Nous avons également formé un réseau neuronal profond d'agrégation guidée (GA-Net), qui obtient des précisions supérieures aux méthodes actuelles sur l'ensemble des données Scene Flow et les benchmarks KITTI.