Exploration de l’ambiguïté du mouvement et de l’alignement pour une interpolation de trames vidéo de haute qualité

Pour l’interpolation de trames vidéo (VFI), les approches actuelles basées sur les réseaux de neurones s’appuient fortement sur les trames intermédiaires vraies (GT), ce qui peut parfois ignorer la nature non unique du mouvement déduit à partir des trames adjacentes données. En conséquence, ces méthodes ont tendance à produire des solutions moyennées, souvent insuffisamment nettes. Pour atténuer ce problème, nous proposons de relâcher la contrainte de reconstruire une trame intermédiaire aussi proche que possible de la GT. À cette fin, nous introduisons une perte de cohérence de texture (TCL), sous l’hypothèse que le contenu interpolé doit conserver des structures similaires à celles de ses correspondants dans les trames données. Les prédictions satisfaisant cette contrainte sont encouragées, même si elles diffèrent de la GT prédéfinie. Sans recourir à des composants complexes, notre module TCL plug-and-play est capable d’améliorer efficacement les performances des cadres existants de VFI. D’un autre côté, les méthodes antérieures utilisent généralement un volume de coût ou une carte de corrélation pour réaliser un recalage d’image ou de caractéristiques plus précis. Toutefois, la complexité computationnelle O(N²) (où N désigne le nombre de pixels) rend cette approche inapplicable dans les cas à haute résolution. Dans ce travail, nous proposons un module simple, efficace (complexité O(N)) mais puissant, appelé alignement pyramidale à plusieurs échelles (CSPA), exploitant pleinement les informations multi-échelles. Des expériences étendues confirment l’efficacité et l’efficience de la stratégie proposée.