Command Palette
Search for a command to run...
CAMixerSR: Nur Details benötigen mehr „Attention“
CAMixerSR: Nur Details benötigen mehr „Attention“
Yan Wang Yi Liu Shijie Zhao Junlin Li Li Zhang
Zusammenfassung
Um den rasant wachsenden Anforderungen an die Super-Resolution (SR) von großen Bildern (2K–8K) gerecht zu werden, verfolgen etablierte Ansätze zwei unabhängige Ansätze: 1) die Beschleunigung bestehender Netzwerke mittels kontextbewusster Routing-Strategien und 2) die Entwicklung verbesserter SR-Netzwerke durch Verfeinerung von Token-Mixern. Trotz ihrer Direktheit stoßen diese Methoden auf unvermeidbare Nachteile (z. B. starre Routing-Strukturen oder nicht differenzierende Verarbeitung), die die weitere Verbesserung des Qualitäts-Komplexitäts-Trade-offs einschränken. Um diese Nachteile zu beseitigen, integrieren wir diese Ansätze in einem neuen Konzept und stellen einen kontextbewussten Mixer (CAMixer) vor, der einfachen Kontexten eine Faltung (Convolution) zuweist und spärlichen Texturen zusätzliche deformierbare Fenster-Attention-Operationen zuordnet. Konkret verwendet der CAMixer einen lernbaren Prädiktor, um mehrere Bootstrap-Elemente zu generieren, darunter Verschiebungen für die Fensterverzerrung, eine Maske zur Klassifizierung von Fenstern sowie faltungsbasierte Aufmerksamkeiten, die der Faltung eine dynamische Eigenschaft verleihen. Diese modulieren die Aufmerksamkeit selbstadaptiv, um nützlichere Texturen einzubeziehen und die Repräsentationsfähigkeit der Faltung zu verbessern. Zusätzlich führen wir eine globale Klassifikationsverlustfunktion ein, um die Genauigkeit der Prädiktoren zu erhöhen. Durch einfaches Stapeln von CAMixern erhalten wir CAMixerSR, das herausragende Leistung bei der Super-Resolution großer Bilder, leichtgewichtiger SR und omnidirektionaler Bilder erzielt.