Hierarchische dynamische Bildharmonisierung

Bildharmonisierung ist eine zentrale Aufgabe im Bereich des Computersehens, die darauf abzielt, die Vordergrundregion so anzupassen, dass sie mit der Hintergrundumgebung konsistent erscheint. In jüngsten Arbeiten wird hauptsächlich auf globale Transformationen (z. B. Normalisierung und Farbverlaufskorrektur) zurückgegriffen, um visuelle Konsistenz zu erreichen. Allerdings ignorieren diese Modelle die lokale visuelle Konsistenz, und ihre großen Modellgrößen begrenzen ihre Harmonisierungsfähigkeit auf Edge-Geräten erheblich. In diesem Artikel stellen wir ein hierarchisches dynamisches Netzwerk (HDNet) vor, das Merkmale von lokaler zu globaler Sicht adaptiert, um eine effiziente Bildharmonisierung zu ermöglichen. Inspiriert durch den Erfolg verschiedener dynamischer Modelle, führen wir hierbei einen lokalen dynamischen (LD) Modul und einen maskenbewussten globalen dynamischen (MGD) Modul ein. Konkret passt der LD-Modul lokale Darstellungen zwischen Vorder- und Hintergrundregionen basierend auf semantischen Ähnlichkeiten an und passt anschließend jede lokale Vordergrunddarstellung adaptiv an, basierend auf dem Erscheinungsbild ihrer $K$-nächsten Nachbarn im Hintergrund. Auf diese Weise kann der LD-Modul realistischere Bilder auf einer feineren Ebene erzeugen und gleichzeitig die Eigenschaft der semantischen Ausrichtung nutzen. Der MGD-Modul wendet effektiv unterschiedliche Faltungen auf Vorder- und Hintergrund an, lernt dabei sowohl die Merkmale der Vordergrund- und Hintergrundregionen als auch deren Korrelationen für die globale Harmonisierung, wodurch die lokale visuelle Konsistenz der Bilder deutlich effizienter gefördert wird. Experimentelle Ergebnisse zeigen, dass das vorgeschlagene HDNet die Gesamtanzahl der Modellparameter im Vergleich zu früheren Ansätzen um mehr als 80 % reduziert, während gleichzeitig eine state-of-the-art Leistung auf dem populären iHarmony4-Datensatz erzielt wird. Besonders hervorzuheben ist, dass HDNet im Vergleich zu vorherigen state-of-the-art-Methoden eine Verbesserung des PSNR um 4 % und eine Reduktion des MSE um 19 % erreicht.