HyperAIHyperAI
vor 2 Monaten

ViNet: Die Grenzen der visuellen Modalität für die Audiovisuelle Salienzvorhersage ausloten

Samyak Jain; Pradeep Yarlagadda; Shreyank Jyoti; Shyamgopal Karthik; Ramanathan Subramanian; Vineet Gandhi
ViNet: Die Grenzen der visuellen Modalität für die Audiovisuelle Salienzvorhersage ausloten
Abstract

Wir schlagen die ViNet-Architektur für die audiovisuelle Salienzvorhersage vor. ViNet ist eine vollständig konvolutorische Encoder-Decoder-Architektur. Der Encoder verwendet visuelle Merkmale aus einem Netzwerk, das für die Aktionserkennung trainiert wurde, während der Decoder durch trilineare Interpolation und 3D-Faltungen ein Salienzkartenbild erstellt, wobei Merkmale aus mehreren Hierarchien kombiniert werden. Die Gesamtarchitektur von ViNet ist konzeptionell einfach; sie ist kausal und läuft in Echtzeit (60 fps). Obwohl ViNet keine Audiodaten als Eingabe verwendet, übertrifft es den aktuellen Stand der Technik in Bezug auf audiovisuelle Salienzvorhersagemodelle auf neun verschiedenen Datensätzen (drei rein visuelle und sechs audiovisuelle Datensätze). ViNet übertreffen auch die menschliche Leistung in den Metriken CC, SIM und AUC für den AVE-Datensatz und ist nach unserem Wissen das erste Netzwerk, das dies erreicht hat. Wir untersuchen außerdem eine Variante der ViNet-Architektur, bei der Audiomerkmale in den Decoder integriert werden. Zu unserer Überraschung wird das Netzwerk nach ausreichender Schulung gegenüber der Eingabeaudiodaten indifferent und liefert unabhängig von der Eingabe dasselbe Ergebnis. Interessanterweise beobachten wir ein ähnliches Verhalten auch bei den bisherigen Stand-der-Technik-Modellen \cite{tsiami2020stavis} für audiovisuelle Salienzvorhersage. Unsere Ergebnisse stehen im Gegensatz zu früheren Arbeiten zur tiefen Lern-basierten audiovisuellen Salienzvorhersage und deuten einen klaren Weg für zukünftige Untersuchungen hin, bei denen Audio auf effektivere Weise eingebunden wird. Der Code und die vortrainierten Modelle sind unter https://github.com/samyak0210/ViNet verfügbar.

ViNet: Die Grenzen der visuellen Modalität für die Audiovisuelle Salienzvorhersage ausloten | Neueste Forschungsarbeiten | HyperAI