Aufmerksamkeitsgesteuerte hierarchische Strukturaggregation für die Bildmatting

Bestehende auf Deep Learning basierende Matting-Algorithmen stützen sich hauptsächlich auf hochwertige semantische Merkmale, um die Gesamtstruktur von Alpha-Mattes zu verbessern. Wir argumentieren jedoch, dass die aus CNNs extrahierten fortgeschrittenen Semantiken ungleichmäßig zur Wahrnehmung von Alpha-Mattes beitragen, und dass daher eine Harmonisierung der fortgeschrittenen semantischen Informationen mit niedrigstufigen Erscheinungsmerkmalen erforderlich ist, um die Detailgenauigkeit der Vordergrundregion zu verfeinern. In diesem Artikel stellen wir ein end-to-end Hierarchisches Aufmerksamkeits-Matting-Netzwerk (HAttMatting) vor, das in der Lage ist, die bessere Struktur von Alpha-Mattes aus einzelnen RGB-Bildern ohne zusätzliche Eingaben vorherzusagen. Insbesondere nutzen wir räumliche und kanalweise Aufmerksamkeitsmechanismen, um Erscheinungsmerkmale und pyramidenförmige Merkmale auf eine neuartige Weise zu integrieren. Diese kombinierte Aufmerksamkeitsmechanik ermöglicht eine präzisere Wahrnehmung von Alpha-Mattes durch verfeinerte Konturen und adaptiv angepasste Semantik. Zudem führen wir eine hybride Verlustfunktion ein, die die Strukturelle Ähnlichkeit (SSIM), den mittleren quadratischen Fehler (MSE) und einen adversarialen Verlust kombiniert, um das Netzwerk weiterhin zur Verbesserung der Gesamtstruktur des Vordergrunds zu führen. Darüber hinaus haben wir eine großskalige Bild-Matting-Datenbank mit insgesamt 59.600 Trainingsbildern und 1.000 Testbildern (insgesamt 646 unterschiedliche Vordergrund-Alpha-Mattes) erstellt, die die Robustheit unseres hierarchischen Strukturaggregationsmodells weiter stärkt. Umfangreiche Experimente zeigen, dass das vorgeschlagene HAttMatting in der Lage ist, komplexe Vordergrundstrukturen präzise zu erfassen und mit einzelnen RGB-Bildern als Eingabe eine state-of-the-art-Leistung erzielt.