SnowFormer: Kontextinteraktions-Transformer mit Skalabewusstsein für die Entschneidung einzelner Bilder

Aufgrund verschiedener und komplexer Schneeverunreinigungen ist die Entfernung von Schnee aus einzelnen Bildern eine herausfordernde Aufgabe der Bildrestauration. Da bisherige Methoden dies nicht ideal bewältigen können, schlagen wir einen neuen Transformer namens SnowFormer vor, der effiziente Cross-Attention-Mechanismen nutzt, um lokale-globale Kontextinteraktionen zwischen Patchs herzustellen und bestehende Arbeiten, die lokale Operatoren oder einfache (vanilla) Transformatoren verwenden, übertrifft. Im Vergleich zu früheren Entschneemethoden und universellen Bildrestaurationsmethoden bietet SnowFormer mehrere Vorteile. Erstens integriert SnowFormer im Gegensatz zur Multi-Head-Self-Attention in neueren Vision Transformatoren für Bildrestauration den Multi-Head-Cross-Attention-Mechanismus, um lokale-globale Kontextinteraktionen zwischen skalenbewussten Schneeabfragen und lokalen Patch-Einbettungen durchzuführen. Zweitens werden die Schneeabfragen in SnowFormer von einem Abfragegenerator auf Basis aggregierter skalenbewusster Merkmale erzeugt, die reich an potentiell sauberen Hinweisen sind und somit zu überlegenen Restaurationsresultaten führen. Drittens übertrifft SnowFormer fortgeschrittene state-of-the-art Entschneenetze sowie weit verbreitete universelle Bildrestaurationstransformatoren auf sechs synthetischen und realweltlichen Datensätzen. Der Code wurde unter \url{https://github.com/Ephemeral182/SnowFormer} veröffentlicht.