HyperAIHyperAI
vor 17 Tagen

iSeeBetter: Raümlich-Zeitliche Video-Super-Resolution unter Verwendung rekurrent-generativer Rückprojektionsnetzwerke

{M. Mani Roja, John Britto, Aman Chadha}
iSeeBetter: Raümlich-Zeitliche Video-Super-Resolution unter Verwendung rekurrent-generativer Rückprojektionsnetzwerke
Abstract

Kürzlich haben lernbasierte Modelle die Leistungsfähigkeit der Einzelbild-Überauflösung (Single-Image Super-Resolution, SISR) erheblich verbessert. Die sukzessive Anwendung von SISR auf jedes Einzelbild einer Videosequenz führt jedoch zu mangelnder zeitlicher Kohärenz. Convolutional Neural Networks (CNNs) übertrumpfen traditionelle Ansätze hinsichtlich Bildqualitätsmetriken wie Peak Signal-to-Noise Ratio (PSNR) und Structural Similarity (SSIM). Generative Adversarial Networks (GANs) bieten hingegen einen Wettbewerbsvorteil, da sie das Problem fehlender feiner Texturdetails, das bei hohen Vergrößerungsfaktoren typischerweise bei CNNs auftritt, effektiv reduzieren können. Wir stellen iSeeBetter vor, einen neuartigen GAN-basierten spatio-temporalen Ansatz für die Video-Überauflösung (Video Super-Resolution, VSR), der zeitlich konsistente, hochaufgelöste Videosequenzen erzeugt. iSeeBetter nutzt den Konzept der rekurrenten Back-Projection-Netzwerke als Generator, um sowohl räumliche als auch zeitliche Informationen aus dem aktuellen sowie benachbarten Bildern zu extrahieren. Darüber hinaus setzen wir den Diskriminator des Super-Resolution Generative Adversarial Network (SRGAN) ein, um die „Natürlichkeit“ der überauflösten Bilder zu verbessern und Artefakte, die bei traditionellen Algorithmen auftreten, zu eliminieren. Obwohl die Minimierung des mittleren quadratischen Fehlers (Mean Squared Error, MSE) als primäres Verlustziel die PSNR und SSIM verbessert, können diese Metriken feine Bilddetails nicht ausreichend erfassen und führen somit zu einer ungenauen Darstellung der wahrnehmungsbezogenen Qualität. Um diesem Problem entgegenzuwirken, verwenden wir eine vierfache Verlustfunktion, die aus den Komponenten MSE, perceptual, adversarial und total variation (TV) besteht. Unsere Ergebnisse zeigen, dass iSeeBetter eine überlegene VSR-Fidelität bietet und die Leistungsfähigkeit bestehender State-of-the-Art-Methoden übertrifft.

iSeeBetter: Raümlich-Zeitliche Video-Super-Resolution unter Verwendung rekurrent-generativer Rückprojektionsnetzwerke | Neueste Forschungsarbeiten | HyperAI