HITNet : Réseau hiérarchique itératif de raffinement de tuiles pour une correspondance stéréo en temps réel

Cet article présente HITNet, une nouvelle architecture de réseau neuronal pour la correspondance stéréo en temps réel. Contrairement à de nombreuses approches récentes basées sur des réseaux neuronaux qui opèrent sur un volume de coût complet et s'appuient sur des convolutions 3D, notre méthode ne construit pas explicitement un volume, mais s'appuie au contraire sur une étape d'initialisation rapide à plusieurs résolutions, ainsi que sur des mécanismes différentiables de propagation et de déformation géométrique 2D afin d'inférer des hypothèses de disparité. Pour atteindre un haut niveau de précision, notre réseau ne se contente pas de raisonner géométriquement sur les disparités, mais infère également des hypothèses de plans inclinés, permettant ainsi une déformation géométrique et une interpolation plus précises. L'architecture est intrinsèquement multi-résolution, ce qui permet la propagation d'informations entre différentes échelles. Plusieurs expérimentations démontrent l'efficacité de l'approche proposée, avec une consommation de calcul réduite à une fraction seulement des méthodes de pointe. Au moment de la rédaction de cet article, HITNet figure au 1er au 3e rang sur l'ensemble des métriques publiées sur le site ETH3D pour la stéréo à deux vues, au 1er rang sur la plupart des métriques parmi toutes les approches d'apprentissage end-to-end sur le jeu de données Middlebury-v3, et au 1er rang sur les benchmarks populaires KITTI 2012 et 2015 parmi les méthodes publiées dont le temps d'exécution est inférieur à 100 ms.