Deformable 3D-Convolution für Video-Super-Resolution

Die raumzeitliche Information innerhalb von Videosequenzen ist für die Video-Super-Resolution (SR) von entscheidender Bedeutung. Allerdings können bestehende Ansätze zur Video-SR diese raumzeitliche Information nicht vollständig ausnutzen, da die räumliche Merkmalsextraktion und die zeitliche Bewegungskompensation in der Regel sequenziell durchgeführt werden. In diesem Artikel stellen wir ein deformierbares 3D-Konvolutionsnetzwerk (D3Dnet) vor, das raumzeitliche Informationen sowohl aus räumlicher als auch aus zeitlicher Perspektive integriert, um die Video-SR zu verbessern. Konkret führen wir die deformierbare 3D-Konvolution (D3D) ein, die die deformierbare Konvolution mit der 3D-Konvolution verbindet und somit sowohl eine herausragende Fähigkeit zur raumzeitlichen Modellierung als auch eine bewegungsadaptive Flexibilität in der Modellierung ermöglicht. Umfangreiche Experimente belegen die Wirksamkeit von D3D bei der Nutzung raumzeitlicher Informationen. Vergleichende Ergebnisse zeigen, dass unser Netzwerk eine state-of-the-art-Leistung in der Super-Resolution erzielt. Der Quellcode ist unter folgender Adresse verfügbar: https://github.com/XinyiYing/D3Dnet.