ShadowMaskFormer: Mask-Augmentierte Patch-Embeddings für Schattenentfernung

Transformer sind kürzlich als Standardmodell für Aufgaben der Computer Vision hervorgetreten und wurden auch erfolgreich zur Schattenentfernung angewendet. Diese bestehenden Methoden basieren jedoch stark auf komplexen Modifikationen der Aufmerksamkeitsmechanismen innerhalb der Transformer-Blöcke, während sie eine generische Patch-Verarbeitung verwenden. Dies führt oft zu komplizierten Architekturdesigns, die zusätzliche Rechenressourcen erfordern. In dieser Arbeit untersuchen wir die Effektivität der Integration von Schatteninformationen in den frühen Verarbeitungsstadium. Dementsprechend schlagen wir einen transformerbasierten Ansatz mit einer neuartigen Patch-Verarbeitung vor, die speziell für die Schattenentfernung optimiert ist und als ShadowMaskFormer bezeichnet wird. Insbesondere stellen wir eine einfache und effektive maskierungsverstärkte Patch-Verarbeitung vor, um Schatteninformationen zu integrieren und das Modell dazu anzuregen, Wissen über Schattenbereiche zu erwerben. Ausführliche Experimente auf den Benchmark-Datensätzen ISTD, ISTD+ und SRD zeigen die Effektivität unserer Methode im Vergleich zu den aktuellen Standesder Technik-Ansätzen, wobei unser Modell weniger Parameter verwendet. Unsere Implementierung ist unter https://github.com/lizhh268/ShadowMaskFormer verfügbar.