NeW CRFs : Réseaux de CRF entièrement connectés neuronaux à fenêtre pour l'estimation de profondeur monoscopique

Estimer la profondeur précise à partir d'une seule image est un défi, car ce problème est intrinsèquement ambigu et mal posé. Alors que les travaux récents conçoivent des réseaux de plus en plus complexes et puissants afin de prédire directement la carte de profondeur, nous optons pour une approche basée sur l’optimisation des CRFs (modèles de champs de Markov conditionnels). En raison de leur coût computationnel élevé, les CRFs sont généralement appliqués uniquement aux voisins des nœuds plutôt que sur l’ensemble du graphe. Afin d’exploiter pleinement le potentiel des CRFs entièrement connectés (FC-CRFs), nous divisons l’image d’entrée en fenêtres et effectuons l’optimisation des FC-CRFs à l’intérieur de chaque fenêtre, ce qui réduit significativement la complexité computationnelle et rend les FC-CRFs réalisables. Pour mieux capturer les relations entre les nœuds du graphe, nous utilisons un mécanisme d’attention à plusieurs têtes afin de calculer une fonction de potentiel multi-têtes, qui est ensuite introduite dans le réseau pour produire une carte de profondeur optimisée. Ensuite, nous proposons une architecture en structure « basse-haut-basse », où le module neuronal de FC-CRFs par fenêtres agit comme décodeur, tandis qu’un vision transformer sert d’encodeur. Les expériences montrent que notre méthode améliore de manière significative les performances sur tous les indicateurs, tant sur les jeux de données KITTI que NYUv2, par rapport aux méthodes précédentes. En outre, la méthode proposée peut être directement appliquée aux images panoramiques et surpasser toutes les méthodes antérieures sur le jeu de données MatterPort3D. Page du projet : https://weihaosky.github.io/newcrfs.