Réinterroger l’alignement dans les transformateurs de super-résolution vidéo

L’alignement des trames adjacentes est considéré comme une opération essentielle dans la super-résolution vidéo (VSR). Les modèles avancés de VSR, y compris les derniers Transformers dédiés à la VSR, sont généralement équipés de modules d’alignement soigneusement conçus. Toutefois, l’évolution du mécanisme d’attention auto-récurrente pourrait contredire cette approche couramment admise. Dans cet article, nous repensons le rôle de l’alignement dans les Transformers pour la VSR et présentons plusieurs observations contre-intuitives. Nos expériences montrent que : (i) les Transformers pour la VSR peuvent directement exploiter les informations provenant de plusieurs trames provenant de vidéos non alignées, et (ii) les méthodes d’alignement existantes peuvent parfois nuire aux performances des Transformers pour la VSR. Ces observations suggèrent qu’il est possible d’améliorer davantage les performances des Transformers pour la VSR en supprimant simplement le module d’alignement et en adoptant une fenêtre d’attention plus large. Toutefois, de telles approches entraînent une augmentation considérable de la charge computationnelle et ne sont pas adaptées aux mouvements importants. Par conséquent, nous proposons une nouvelle méthode d’alignement efficace, appelée patch alignment, qui aligne des patches d’image au lieu de pixels individuels. Les Transformers pour la VSR intégrant cette nouvelle méthode atteignent des performances de pointe sur plusieurs benchmarks. Ce travail fournit des perspectives précieuses sur la manière dont les informations multi-trames sont exploitées dans la VSR, ainsi que sur le choix des méthodes d’alignement en fonction des réseaux ou des jeux de données. Les codes et modèles seront publiés à l’adresse suivante : https://github.com/XPixelGroup/RethinkVSRAlignment.