HyperAIHyperAI

Command Palette

Search for a command to run...

ViNet: Die Grenzen der visuellen Modalität für die Audiovisuelle Salienzvorhersage ausloten

Samyak Jain Pradeep Yarlagadda Shreyank Jyoti Shyamgopal Karthik Ramanathan Subramanian Vineet Gandhi

Zusammenfassung

Wir schlagen die ViNet-Architektur für die audiovisuelle Salienzvorhersage vor. ViNet ist eine vollständig konvolutorische Encoder-Decoder-Architektur. Der Encoder verwendet visuelle Merkmale aus einem Netzwerk, das für die Aktionserkennung trainiert wurde, während der Decoder durch trilineare Interpolation und 3D-Faltungen ein Salienzkartenbild erstellt, wobei Merkmale aus mehreren Hierarchien kombiniert werden. Die Gesamtarchitektur von ViNet ist konzeptionell einfach; sie ist kausal und läuft in Echtzeit (60 fps). Obwohl ViNet keine Audiodaten als Eingabe verwendet, übertrifft es den aktuellen Stand der Technik in Bezug auf audiovisuelle Salienzvorhersagemodelle auf neun verschiedenen Datensätzen (drei rein visuelle und sechs audiovisuelle Datensätze). ViNet übertreffen auch die menschliche Leistung in den Metriken CC, SIM und AUC für den AVE-Datensatz und ist nach unserem Wissen das erste Netzwerk, das dies erreicht hat. Wir untersuchen außerdem eine Variante der ViNet-Architektur, bei der Audiomerkmale in den Decoder integriert werden. Zu unserer Überraschung wird das Netzwerk nach ausreichender Schulung gegenüber der Eingabeaudiodaten indifferent und liefert unabhängig von der Eingabe dasselbe Ergebnis. Interessanterweise beobachten wir ein ähnliches Verhalten auch bei den bisherigen Stand-der-Technik-Modellen \cite{tsiami2020stavis} für audiovisuelle Salienzvorhersage. Unsere Ergebnisse stehen im Gegensatz zu früheren Arbeiten zur tiefen Lern-basierten audiovisuellen Salienzvorhersage und deuten einen klaren Weg für zukünftige Untersuchungen hin, bei denen Audio auf effektivere Weise eingebunden wird. Der Code und die vortrainierten Modelle sind unter https://github.com/samyak0210/ViNet verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
ViNet: Die Grenzen der visuellen Modalität für die Audiovisuelle Salienzvorhersage ausloten | Paper | HyperAI