HyperAIHyperAI

Command Palette

Search for a command to run...

Videobasierte Vorhersage von Salienz mit einem erweiterten räumlich-zeitlichen Ausrichtungsnetzwerk

Jin Chen Huihui Song Kaihua Zhang* Bo Liu Qingshan Liu

Zusammenfassung

Aufgrund einer Vielzahl von Bewegungen in verschiedenen Bildern ist es äußerst herausfordernd, eine effektive räumlich-zeitliche Repräsentation zu erlernen, die eine genaue Vorhersage der Video-Salienz (VSP) ermöglicht. Um dieses Problem zu lösen, entwickeln wir ein effektives räumlich-zeitliches Merkmalausrichtungsnetzwerk, das speziell für VSP angepasst ist und hauptsächlich aus zwei zentralen Unter-Netzwerken besteht: einem mehrskaligen deformierbaren Faltungs-Ausrichtungsnetzwerk (MDAN) und einem bidirektionalen Faltungs-Langzeit-Kurzzeit-Gedächtnis-Netzwerk (Bi-ConvLSTM). Das MDAN lernt, die Merkmale benachbarter Bilder in einem Schritt-für-Schritt-Prozess mit dem Referenzbild auszurichten, was verschiedene Bewegungen gut bewältigen kann. Insbesondere verfügt das MDAN über eine pyramidenförmige MerkmalsHierarchie-Struktur, die zunächst deformierbare Faltung (Dconv) nutzt, um die Merkmale niedriger Auflösung zwischen den Bildern auszurichten, und dann die ausgerichteten Merkmale aggregiert, um die Merkmale höherer Auflösung auszurichten. Dies verbessert schrittweise die Merkmale von oben nach unten. Die Ausgabe des MDAN wird anschließend in das Bi-ConvLSTM eingespeist, um weitere Verbesserungen zu erreichen. Dabei erfasst das Bi-ConvLSTM nützliche langfristige zeitliche Informationen in vorwärts- und rückwärtsgerichteter Zeitabfolge, um unter komplexen Szenentransformationen effektiv die Vorhersage der Aufmerksamkeitsorientierung zu leiten. Schließlich werden die verbesserten Merkmale dekodiert, um das vorhergesagte Salienzkarten zu generieren. Das vorgeschlagene Modell wird ohne irgendeine komplizierte Nachbearbeitung end-to-end trainiert. Ausführliche Evaluierungen auf vier Benchmark-Datensätzen für VSP zeigen, dass die vorgeschlagene Methode gegenüber den neuesten Methoden günstige Leistung erzielt. Der Quellcode und alle Ergebnisse werden veröffentlicht.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp