DRCT: Bild-Super-Resolution vor der Informationsbottleneck-Problematik bewahren

In den letzten Jahren haben Ansätze auf Basis von Vision Transformers für Aufgaben des Low-Level Vision erheblichen Erfolg erzielt. Im Gegensatz zu CNN-basierten Modellen sind Transformers besser darin, langreichweitige Abhängigkeiten zu erfassen, was die Rekonstruktion von Bildern unter Nutzung von nicht-lokaler Information ermöglicht. Im Bereich der Bildsuperauflösung sind Swin-Transformer-basierte Modelle aufgrund ihrer Fähigkeit zur Modellierung globaler räumlicher Informationen sowie ihres Window-Shifting-Attention-Mechanismus, der den Informationsaustausch zwischen verschiedenen Fenstern erleichtert, zur Standardvariante geworden. Viele Forscher haben die Leistung von Modellen durch Erweiterung der Empfindlichkeitsfelder oder durch die Entwicklung fein abgestimmter Netzarchitekturen verbessert, wodurch beachtenswerte Ergebnisse erzielt wurden. Wir beobachteten jedoch, dass es ein allgemeiner Trend ist, dass die Intensität der Merkmalskarten am Ende des Netzwerks plötzlich auf kleine Werte gedämpft wird. Dies deutet auf einen Informationsbottleneck und eine Verringerung räumlicher Information hin, was die Potenziale des Modells implizit einschränkt. Um dies zu beheben, schlagen wir den Dense-Residual-connected Transformer (DRCT) vor, dessen Ziel darin besteht, den Verlust räumlicher Information zu verringern und den Informationsfluss durch dichte Residual-Verbindungen zwischen Schichten zu stabilisieren, wodurch das volle Potenzial des Modells freigelegt und das Netzwerk vor einem Informationsbottleneck bewahrt wird. Experimentelle Ergebnisse zeigen, dass unser Ansatz state-of-the-art Methoden auf Benchmark-Datensätzen übertrifft und bei der NTIRE-2024 Image Super-Resolution (x4) Challenge überzeugende Leistungen erbringt. Der Quellcode ist unter https://github.com/ming053l/DRCT verfügbar.