Wiederherstellung von Allem durch Effiziente Degradationsanpassung

Mit der Verbreitung mobiler Geräte ist die Notwendigkeit eines effizienten Modells zur Wiederherstellung von belichteten Bildern zunehmend bedeutend und von großer Auswirkung geworden. Traditionelle Ansätze beinhalten in der Regel das Training spezialisierter Modelle für jede spezifische Degradierung, was zu Ineffizienz und Redundanz führt. Neuere Lösungen entweder zusätzliche Module zur Lernvisuellen Anweisungen (visual prompts) einführen, was die Modellgröße erheblich erhöht, oder sie nutzen den Cross-Modal-Transfer von großen Sprachmodellen, die auf umfangreichen Datensätzen trainiert wurden, was die Systemarchitektur verkompliziert. Im Gegensatz dazu nimmt unser Ansatz, der als RAM bezeichnet wird, einen einheitlichen Weg, bei dem die inhärenten Ähnlichkeiten zwischen verschiedenen Degradierungen genutzt werden, um sowohl effiziente als auch umfassende Wiederherstellungen durch einen gemeinsamen Einbettungsmechanismus zu ermöglichen, ohne das Modell zu vergrößern oder sich auf große multimodale Modelle zu stützen.Insbesondere untersuchen wir den Sub-Latenten Raum jedes Eingangs, identifizieren Schlüsselkomponenten und gewichten diese in einer geregten Weise neu. Diese inhärente Degradierungsbewusstheit wird im X-förmigen Framework mit kontextualisierter Aufmerksamkeit kombiniert, wodurch lokale-globale Interaktionen verbessert werden. Umfangreiche Benchmarks in einem all-in-one-Wiederherstellungsszenario bestätigen die Spitzenleistung (SOTA) von RAM, wobei die Anzahl der trainierbaren Parameter um etwa 82 % und die FLOPs um 85 % reduziert werden. Unser Code und unsere Modelle werden öffentlich zugänglich gemacht.