HomoFormer: Homogenized Transformer für die Bildschattenentfernung

Die räumliche Nicht-Uniformität und die vielfältigen Muster der Schattenverschlechterung stehen im Widerspruch zum Gewichtsteilen der dominierenden Modelle, was zu einem unbefriedigenden Kompromiss führen kann. Um dieses Problem anzugehen, präsentieren wir in diesem Artikel eine neuartige Strategie aus der Perspektive der Schattentransformation: die direkte Homogenisierung der räumlichen Verteilung der Schattenverschlechterung. Unser zentrales Design besteht aus der zufälligen Shuffel-Operation und ihrer entsprechenden inversen Operation. Genauer gesagt, rearrangiert die zufällige Shuffel-Operation die Pixel stochastisch über den räumlichen Bereich, während die inverse Operation die ursprüngliche Reihenfolge wiederherstellt. Nach dem zufälligen Shuffeln diffundiert der Schatten über das gesamte Bild, wodurch die Verschlechterung homogenisiert erscheint und effektiv durch die lokale Self-Attention-Schicht verarbeitet werden kann. Darüber hinaus entwickeln wir zudem ein neues Feed-Forward-Netzwerk mit Positionsmodellierung, um strukturelle Informationen der Bildinhalte besser auszunutzen. Auf Basis dieser Elemente bauen wir das endgültige, auf lokalen Fenstern basierende Transformer-Modell HomoFormer für die Schattenentfernung auf. Unser HomoFormer erreicht die lineare Komplexität lokaler Transformer, während er gleichzeitig die Herausforderungen der Nicht-Uniformität und Vielfalt der Schatten umgeht. Um die Überlegenheit unseres HomoFormer anhand öffentlicher Datensätze zu bestätigen, führen wir umfangreiche Experimente durch.