Videobasierte Vorhersage von Salienz mit einem erweiterten räumlich-zeitlichen Ausrichtungsnetzwerk

Aufgrund einer Vielzahl von Bewegungen in verschiedenen Bildern ist es äußerst herausfordernd, eine effektive räumlich-zeitliche Repräsentation zu erlernen, die eine genaue Vorhersage der Video-Salienz (VSP) ermöglicht. Um dieses Problem zu lösen, entwickeln wir ein effektives räumlich-zeitliches Merkmalausrichtungsnetzwerk, das speziell für VSP angepasst ist und hauptsächlich aus zwei zentralen Unter-Netzwerken besteht: einem mehrskaligen deformierbaren Faltungs-Ausrichtungsnetzwerk (MDAN) und einem bidirektionalen Faltungs-Langzeit-Kurzzeit-Gedächtnis-Netzwerk (Bi-ConvLSTM). Das MDAN lernt, die Merkmale benachbarter Bilder in einem Schritt-für-Schritt-Prozess mit dem Referenzbild auszurichten, was verschiedene Bewegungen gut bewältigen kann. Insbesondere verfügt das MDAN über eine pyramidenförmige MerkmalsHierarchie-Struktur, die zunächst deformierbare Faltung (Dconv) nutzt, um die Merkmale niedriger Auflösung zwischen den Bildern auszurichten, und dann die ausgerichteten Merkmale aggregiert, um die Merkmale höherer Auflösung auszurichten. Dies verbessert schrittweise die Merkmale von oben nach unten. Die Ausgabe des MDAN wird anschließend in das Bi-ConvLSTM eingespeist, um weitere Verbesserungen zu erreichen. Dabei erfasst das Bi-ConvLSTM nützliche langfristige zeitliche Informationen in vorwärts- und rückwärtsgerichteter Zeitabfolge, um unter komplexen Szenentransformationen effektiv die Vorhersage der Aufmerksamkeitsorientierung zu leiten. Schließlich werden die verbesserten Merkmale dekodiert, um das vorhergesagte Salienzkarten zu generieren. Das vorgeschlagene Modell wird ohne irgendeine komplizierte Nachbearbeitung end-to-end trainiert. Ausführliche Evaluierungen auf vier Benchmark-Datensätzen für VSP zeigen, dass die vorgeschlagene Methode gegenüber den neuesten Methoden günstige Leistung erzielt. Der Quellcode und alle Ergebnisse werden veröffentlicht.