HyperAIHyperAI
vor 17 Tagen

PULSE: Selbstüberwachtes Bild-Up-Scaling mittels Latentraum-Exploration generativer Modelle

Sachit Menon, Alexandru Damian, Shijia Hu, Nikhil Ravi, Cynthia Rudin
PULSE: Selbstüberwachtes Bild-Up-Scaling mittels Latentraum-Exploration generativer Modelle
Abstract

Das primäre Ziel der Einzelbild-Super-Resolution besteht darin, hochauflösende (HR) Bilder aus entsprechenden niederauflösenden (LR) Eingaben zu rekonstruieren. In früheren, in der Regel überwachten Ansätzen wurde das Trainingsziel typischerweise durch eine pixelweise durchschnittliche Distanz zwischen dem superaufgelösten (SR) und dem HR-Bild gemessen. Die Optimierung solcher Metriken führt häufig zu Verschmierungen, insbesondere in Regionen mit hoher Varianz (detaillierte Bereiche). Wir schlagen eine alternative Formulierung des Super-Resolution-Problems vor, die auf der Erzeugung realistischer SR-Bilder abzielt, die korrekt heruntergezoomt werden können. Wir präsentieren einen Algorithmus, der dieses Problem adressiert: PULSE (Photo Upsampling via Latent Space Exploration), der hochauflösende, realistische Bilder erzeugt, die in der Literatur bisher nicht erreicht wurden. Dies geschieht vollständig selbstüberwacht und ist nicht an einen spezifischen Degradationsoperator gebunden, der während des Trainings verwendet wurde – im Gegensatz zu früheren Methoden, die überwachtes Training an Datenbanken aus LR-HR-Bildpaaren erfordern. Anstatt mit dem LR-Bild zu beginnen und schrittweise Details hinzuzufügen, durchquert PULSE den hochdimensionalen Mannigfaltigkeitsraum natürlicher hochauflösender Bilder und sucht nach Bildern, die beim Herunterskalieren das ursprüngliche LR-Bild ergeben. Dies wird durch die sogenannte „Herunterskalierungsverlustfunktion“ formalisiert, die die Exploration des Latenzraums eines generativen Modells leitet. Durch Ausnutzung der Eigenschaften hochdimensionaler Gausscher Verteilungen beschränken wir den Suchraum, um realistische Ausgaben zu garantieren. PULSE erzeugt somit superaufgelöste Bilder, die sowohl realistisch sind als auch korrekt heruntergezoomt werden können. Wir zeigen einen Proof-of-Concept-Ansatz in der Domäne der Gesichtssuper-Resolution (d. h. Gesichtshalluzination). Außerdem diskutieren wir die derzeitigen Grenzen und Verzerrungen der Methode und stellen eine begleitende Modellkarte mit relevanten Metriken vor. Unser Ansatz übertrifft state-of-the-art-Methoden hinsichtlich der perceptuellen Qualität bei höheren Auflösungen und Skalierungsfaktoren, als dies bisher möglich war.

PULSE: Selbstüberwachtes Bild-Up-Scaling mittels Latentraum-Exploration generativer Modelle | Neueste Forschungsarbeiten | HyperAI