Lignes d'horizon temporellement cohérentes

La ligne d'horizon est une caractéristique géométrique importante pour de nombreuses tâches de traitement d'images et de compréhension des scènes en vision par ordinateur. Par exemple, dans la navigation des véhicules autonomes ou l'assistance au conducteur, elle peut être utilisée pour améliorer la reconstruction 3D ainsi que pour l'interprétation sémantique des environnements dynamiques. Bien que des algorithmes et des ensembles de données existent pour les images individuelles, le problème de l'estimation de la ligne d'horizon à partir de séquences vidéo n'a pas encore reçu beaucoup d'attention. Dans cet article, nous montrons comment les réseaux neuronaux convolutifs sont capables d'utiliser la cohérence temporelle imposée par les séquences vidéo afin d'accroître la précision et de réduire la variance des estimations de la ligne d'horizon. Nous présentons une nouvelle architecture CNN avec un LSTM convolutif résiduel amélioré pour une estimation temporellement cohérente de la ligne d'horizon. Nous proposons également une fonction de perte adaptative qui garantit une formation stable ainsi que des résultats précis. De plus, nous introduisons une extension du jeu de données KITTI qui contient des labels précis de lignes d'horizon pour 43 699 images réparties sur 72 séquences vidéo. Une évaluation approfondie montre que l'approche proposée obtient constamment des performances supérieures par rapport aux méthodes existantes.