Exploitation de la guidance par flux optique pour l'inpainting vidéo basé sur les Transformers

Les Transformers ont été largement utilisés pour le traitement vidéo grâce à leur mécanisme d’attention auto-attention à plusieurs têtes (MHSA). Toutefois, ce mécanisme souffre d’un problème intrinsèque en ce qui concerne le remplissage vidéo (video inpainting), car les caractéristiques associées aux régions endommagées sont dégradées, entraînant une attention auto-attention inexacte. Ce phénomène, appelé dégradation de la requête (query degradation), peut être atténué en complétant d’abord les champs optiques, puis en utilisant ces derniers pour guider l’attention auto-attention, comme cela a été démontré dans notre travail précédent : le Transformer guidé par le flux optique (FGT). Nous exploitons davantage cette idée de guidage par le flux et proposons FGT++, afin d’obtenir un remplissage vidéo plus efficace et performant. Premièrement, nous concevons un réseau léger de complétion de champs optiques en utilisant une agrégation locale et une perte basée sur les contours. Deuxièmement, pour atténuer la dégradation de la requête, nous introduisons un module d’intégration des caractéristiques guidées par le flux, qui exploite la discrépance de mouvement pour renforcer les caractéristiques, ainsi qu’un module de propagation des caractéristiques guidées par le flux, qui déforme les caractéristiques selon les champs optiques. Troisièmement, nous décomposons le Transformer selon les dimensions temporelle et spatiale : les champs optiques sont utilisés pour sélectionner les tokens via un mécanisme d’attention auto-attention à plusieurs têtes déformable dans le temps, tandis que les tokens globaux sont combinés avec les tokens locaux situés à l’intérieur de la fenêtre via un mécanisme d’attention auto-attention à plusieurs têtes à double perspective. Les évaluations expérimentales montrent que FGT++ surpasse qualitativement et quantitativement les réseaux existants pour le remplissage vidéo.