Auto-kodierte Aufsicht für perceptuelle Bild-Super-Resolution

Diese Arbeit befasst sich mit dem Fidelitätsziel in der perceptiven Super-Resolution (SR). Konkret untersuchen wir die Schwächen der pixelbasierten $L_\text{p}$-Verlustfunktion ($\mathcal{L}\text{pix}$) im Rahmen von GAN-basierten SR-Methoden. Da $\mathcal{L}\text{pix}$ bekanntermaßen ein Kompromissverhältnis gegenüber der perceptiven Qualität aufweist, verwenden herkömmliche Ansätze oft einen kleinen Skalierungsfaktor oder niedrigpassfilterbasierte Techniken. Diese Arbeit zeigt jedoch, dass solche Umgehungsstrategien die grundlegende Ursache für die Aufweichung (Blurring) nicht angehen. Stattdessen konzentrieren wir uns auf zwei zentrale Aspekte: 1) die präzise Identifizierung des Teils von $\mathcal{L}\text{pix}$, der zur Aufweichung beiträgt, und 2) die alleinige Orientierung an jenem Faktor, der frei von diesem Kompromissverhältnis ist. Wir zeigen, dass dies überraschend einfach durch einen mit $\mathcal{L}\text{pix}$ vortrainierten Auto-Encoder (AE) realisierbar ist. Daraus leiten wir die Auto-Encoded Supervision for Optimal Penalization loss ($L_\text{AESOP}$) ein, eine neuartige Verlustfunktion, die den Abstand im AE-Raum, statt im rohen Pixelraum, misst. Dabei bezeichnet der AE-Raum den Raum nach dem Decoder, nicht den Bottleneck. Durch einfache Ersetzung von $\mathcal{L}\text{pix}$ durch $L\text{AESOP}$ können wir eine effektive Rekonstruktionsleitung bieten, ohne die perceptive Qualität zu beeinträchtigen. Aufgrund ihrer Einfachheit ermöglicht unsere Methode eine problemlose Integration in bestehende SR-Frameworks. Experimentelle Ergebnisse bestätigen, dass AESOP zu überzeugenden Ergebnissen im Bereich der perceptiven Super-Resolution führt.