Convolution 3D déformable pour la super-résolution vidéo

L’information spatio-temporelle présente une importance capitale dans la super-résolution vidéo (SR). Toutefois, les méthodes actuelles de SR vidéo ne parviennent pas à exploiter pleinement cette information spatio-temporelle, car l’extraction des caractéristiques spatiales et la compensation du mouvement temporel sont généralement réalisées de manière séquentielle. Dans ce travail, nous proposons un réseau de convolution déformable 3D (D3Dnet) afin d’intégrer efficacement l’information spatio-temporelle à la fois dans les dimensions spatiale et temporelle pour la super-résolution vidéo. Plus précisément, nous introduisons la convolution déformable 3D (D3D), qui combine la convolution déformable et la convolution 3D, offrant ainsi une capacité supérieure de modélisation spatio-temporelle ainsi qu’une flexibilité accrue dans la prise en compte du mouvement. Des expérimentations étendues démontrent l’efficacité de la D3D dans l’exploitation de l’information spatio-temporelle. Les résultats comparatifs indiquent que notre réseau atteint des performances de SR de pointe. Le code est disponible à l’adresse suivante : https://github.com/XinyiYing/D3Dnet.