ReCoNet : Réseau de transfert de style vidéo en temps réel

Les modèles de transfert de style d'images basés sur les réseaux neuronaux convolutifs souffrent généralement d'une forte incohérence temporelle lorsqu'ils sont appliqués aux vidéos. Bien que certains modèles de transfert de style vidéo aient été proposés pour améliorer la cohérence temporelle, ils échouent à garantir simultanément une vitesse de traitement rapide, une qualité stylistique perceptive satisfaisante et une haute cohérence temporelle. Dans cet article, nous présentons un nouveau modèle de transfert de style vidéo en temps réel, ReCoNet, capable de générer des vidéos avec un transfert de style temporalement cohérent tout en maintenant des styles perceptuels favorables. Une nouvelle contrainte de déformation luminance est ajoutée au coût temporel au niveau de sortie pour capturer les changements de luminance entre les images consécutives et augmenter la stabilité du stylisation sous l'effet d'éclairage. Nous proposons également une nouvelle perte temporelle au niveau des cartes de caractéristiques pour renforcer davantage la cohérence temporelle sur les objets identifiables. Les résultats expérimentaux montrent que notre modèle présente des performances exceptionnelles tant qualitativement que quantitativement.