Recherche hiérarchique d'architecture neuronale pour la correspondance stéréo profonde

Afin de réduire l'effort humain nécessaire à la conception des réseaux de neurones, la Recherche d'Architecture Neuronale (Neural Architecture Search, NAS) a été appliquée avec un succès remarquable à diverses tâches visuelles de haut niveau, telles que la classification et la segmentation sémantique. L'idée fondamentale derrière les algorithmes NAS est simple : permettre au réseau de sélectionner parmi un ensemble d'opérations (par exemple, des convolutions avec différentes tailles de filtres) afin de découvrir une architecture optimale mieux adaptée au problème considéré. Toutefois, jusqu'à présent, les succès de la NAS n'ont pas été étendus aux tâches visuelles géométriques de bas niveau, telles que le recalage stéréo. Cela s'explique en partie par le fait que les réseaux profonds d'état de l'art pour le recalage stéréo, conçus par des humains, sont déjà d'une taille considérable. L'application directe de la NAS à de telles structures massives s'avère actuellement prohibitive sur les ressources informatiques mainstream disponibles. Dans ce papier, nous proposons le premier cadre de NAS hiérarchique end-to-end pour le recalage stéréo profond, en intégrant des connaissances humaines spécifiques à la tâche dans le cadre de la recherche d'architecture neuronale. Plus précisément, en suivant le pipeline standard pour le recalage stéréo profond (c’est-à-dire extraction de caractéristiques – construction du volume de caractéristiques et correspondance dense), nous optimisons conjointement les architectures de l’ensemble du pipeline. Des expériences étendues montrent que le réseau découvert dépasse toutes les architectures d’état de l’art pour le recalage stéréo profond, atteignant le premier rang en précision (top-1) sur les benchmarks KITTI 2012, KITTI 2015 et Middlebury, ainsi que le premier rang sur le jeu de données SceneFlow, avec une amélioration significative en taille du réseau et en vitesse d’inférence. Le code est disponible à l’adresse suivante : https://github.com/XuelianCheng/LEAStereo.