Transformateur masqué conscient des déficiences pour le remplissage vidéo

Les méthodes récentes de peinture vidéo (video inpainting) ont accompli des progrès remarquables en exploitant des guides explicites, tels que le flux optique, pour propager les pixels entre cadres. Toutefois, dans certains cas, la récurrence croisée des régions masquées dans la vidéo n’est pas disponible, ce qui entraîne une lacune. Dans de telles situations, au lieu de puiser des pixels dans d’autres cadres, l’attention du modèle se concentre sur la résolution du problème inverse. Dans cet article, nous proposons un cadre de peinture vidéo compatible à deux modalités, appelé Transformer Masqué Sensible aux Déficiences (Deficiency-aware Masked Transformer, DMT), offrant trois avantages clés. Premièrement, nous préentraînons un modèle de peinture d’image, DMT_img, qui sert de priorité pour la distillation du modèle vidéo DMT_vid, améliorant ainsi la génération de contenus dans les cas de déficience. Deuxièmement, le module d’attention auto-associative sélectionne de manière intelligente des jetons spatio-temporels afin d’accélérer l’inférence et d’éliminer les signaux parasites. Troisièmement, un module simple mais efficace, appelé Contextualiseur de Champ de Réception, est intégré au DMT, contribuant davantage à l’amélioration des performances. Des expérimentations étendues sur les jeux de données YouTube-VOS et DAVIS montrent que DMT_vid surpasse significativement les solutions antérieures. Le code source et des démonstrations vidéo sont disponibles à l’adresse github.com/yeates/DMT.