Réseaux de Copier-Coller pour l'Inpainting Vidéo Profond

Nous présentons un nouvel algorithme basé sur l'apprentissage profond pour le remplissage de vidéos (video inpainting). Le remplissage de vidéos est un processus visant à compléter les régions corrompues ou manquantes dans des séquences vidéo. Comparé au remplissage d'images fixes, le remplissage de vidéos présente des défis supplémentaires en raison des informations temporelles supplémentaires et de la nécessité de maintenir la cohérence temporelle. Nous proposons un nouveau cadre basé sur les réseaux de neurones profonds (DNN) appelé Réseaux Copier-Coller (Copy-and-Paste Networks) pour le remplissage de vidéos, qui exploite les informations supplémentaires présentes dans d'autres images du flux vidéo. Le réseau est formé pour copier les contenus correspondants dans les images de référence et les coller afin de combler les lacunes dans l'image cible. Notre réseau inclut également un sous-réseau d'alignement qui calcule des matrices affines entre les images pour assurer leur alignement, permettant ainsi au réseau d'utiliser des informations provenant d'images plus éloignées pour une meilleure robustesse. Notre méthode produit des résultats visuellement agréables et temporellement cohérents tout en fonctionnant plus rapidement que la méthode optimisationnelle d'avant-garde actuelle. De plus, nous étendons notre cadre pour améliorer les images surexposées ou sous-exposées dans les vidéos. En utilisant cette technique d'amélioration, nous avons pu considérablement améliorer la précision de détection des lignes sur des vidéos routières.