Lernen von räumlicher Anpassung und zeitlicher Kohärenz in Diffusionsmodellen für Videosuperresolution

Diffusionsmodelle stehen gerade an einem Wendepunkt für die Aufgabenstellung der Bildauflösungsverbesserung. Dennoch ist es nicht trivial, Diffusionsmodelle für die Videoumlaufsverbesserung zu nutzen, was nicht nur die Erhaltung des visuellen Erscheinungsbildes von niedrigen zu hohen Auflösungen erfordert, sondern auch die zeitliche Konsistenz über die Videoframes hinweg. In dieser Arbeit schlagen wir einen neuen Ansatz vor, der sich auf räumliche Anpassung und zeitliche Kohärenz (SATeCo) konzentriert, um die Videoumlaufsverbesserung zu erreichen. SATeCo basiert darauf, räumlich-zeitliche Leitinformationen aus niedrigen Auflösungen zu lernen, um sowohl die Entstörung hochauflösender Videos im Latenten Raum als auch die Rekonstruktion von Videos im Pixelraum zu kalibrieren. Technisch gesehen friert SATeCo alle Parameter des vortrainierten UNet und VAE ein und optimiert nur zwei speziell entwickelte Module zur räumlichen Merkmalsanpassung (SFA) und zeitlichen Merkmalsausrichtung (TFA) im Decoder von UNet und VAE. SFA moduliert Rahmenmerkmale durch adaptive Schätzung affiner Parameter für jedes Pixel, wodurch eine pixelweise Leitung für die Synthese hochauflösender Frames gewährleistet wird. TFA untersucht das Merkmalinteraktionsverhalten innerhalb eines 3D-lokalen Fensters (Tubelet) mittels Selbst-Aufmerksamkeit und führt Kreuz-Aufmerksamkeit zwischen dem Tubelet und dessen niedrig-auflösendem Pendant durch, um die zeitliche Merkmalsausrichtung zu leiten. Umfangreiche Experimente auf den Datensätzen REDS4 und Vid4 zeigen die Effektivität unseres Ansatzes.