Un CNN léger pour le flux optique - Réexamen de la fidélité aux données et de la régularisation

Au cours des quatre dernières décennies, la majorité des travaux s'est penchée sur le problème de l'estimation du flot optique en utilisant des méthodes variationnelles. Avec les progrès de l'apprentissage automatique, certaines études récentes ont tenté d'aborder ce problème à l'aide de réseaux neuronaux convolutifs (CNN) et ont montré des résultats prometteurs. FlowNet2, le CNN de pointe, nécessite plus de 160 millions de paramètres pour obtenir une estimation précise du flot optique. Notre LiteFlowNet2 surpasses FlowNet2 sur les benchmarks Sintel et KITTI, tout en étant 25,3 fois plus petit en taille de modèle et 3,1 fois plus rapide en termes de vitesse d'exécution. LiteFlowNet2 repose sur les fondements posés par les méthodes traditionnelles et joue un rôle similaire à celui de la fidélité aux données et de la régularisation dans les méthodes variationnelles. Nous calculons le flot optique dans une formulation pyramidale spatiale comme SPyNet, mais à travers une nouvelle inférence de flot légère et en cascade. Elle offre une haute précision d'estimation du flot grâce à des corrections précoce avec une intégration fluide du couplage descripteur. La régularisation du flot est utilisée pour atténuer le problème des valeurs aberrantes et des contours flous du flot grâce à des convolutions locales guidées par les caractéristiques. Notre réseau possède également une structure efficace pour l'extraction pyramidale des caractéristiques et adopte le déformage des caractéristiques plutôt que le déformage d'image, comme c'est pratiqué dans FlowNet2 et SPyNet. Par rapport à LiteFlowNet, LiteFlowNet2 améliore la précision du flot optique sur Sintel Clean de 23,3 %, Sintel Final de 12,8 %, KITTI 2012 de 19,6 % et KITTI 2015 de 18,8 %, tout en étant 2,2 fois plus rapide. Nos protocoles réseau et modèles entraînés sont rendus publiquement disponibles sur https://github.com/twhui/LiteFlowNet2.