SUM: Salienz-Unifikation durch Mamba für die Modellierung visueller Aufmerksamkeit

Das Modellieren visueller Aufmerksamkeit, das für die Interpretation und Priorisierung visueller Reize von großer Bedeutung ist, spielt eine wichtige Rolle in Anwendungen wie Marketing, Multimedia und Robotik. Traditionelle Salienzvorhersagemodelle, insbesondere solche, die auf Faltungsneuronalen Netzen (CNNs) oder Transformatoren basieren, erzielen durch die Nutzung umfangreicher annotierter Datensätze bemerkenswerte Erfolge. Allerdings sind derzeit die fortschrittlichsten (SOTA) Modelle, die Transformatoren verwenden, rechnerisch sehr aufwendig. Zudem werden oft getrennte Modelle für jeden Bildtyp benötigt, was ein einheitliches Vorgehen vermisst lässt. In dieser Arbeit schlagen wir Saliency Unification through Mamba (SUM) vor, einen neuen Ansatz, der die effiziente Modellierung langer Abhängigkeiten von Mamba mit U-Net integriert, um ein einheitliches Modell für verschiedene Bildtypen zu bieten. Durch den Einsatz eines neuartigen bedingten visuellen Zustandsraumblocks (C-VSS) passt sich SUM dynamisch an verschiedene Bildtypen an, einschließlich natürlichen Szenen, Webseiten und kommerziellen Abbildungen, wodurch eine universelle Anwendbarkeit auf unterschiedliche Datentypen gewährleistet wird. Unsere umfassenden Evaluierungen über fünf Benchmarks zeigen, dass SUM nahtlos an unterschiedliche visuelle Merkmale angepasst werden kann und bestehende Modelle konsistent übertrifft. Diese Ergebnisse positionieren SUM als vielseitiges und leistungsfähiges Werkzeug zur Förderung des Modellierens visueller Aufmerksamkeit und bieten eine robuste Lösung, die universell auf verschiedene Arten von visuellem Inhalt anwendbar ist.