vor 8 Monaten

Samyak Jain Pradeep Yarlagadda Shreyank Jyoti Shyamgopal Karthik Ramanathan Subramanian Vineet Gandhi

Zusammenfassung

Wir schlagen die ViNet-Architektur für die audiovisuelle Salienzvorhersage vor. ViNet ist eine vollständig konvolutorische Encoder-Decoder-Architektur. Der Encoder verwendet visuelle Merkmale aus einem Netzwerk, das für die Aktionserkennung trainiert wurde, während der Decoder durch trilineare Interpolation und 3D-Faltungen ein Salienzkartenbild erstellt, wobei Merkmale aus mehreren Hierarchien kombiniert werden. Die Gesamtarchitektur von ViNet ist konzeptionell einfach; sie ist kausal und läuft in Echtzeit (60 fps). Obwohl ViNet keine Audiodaten als Eingabe verwendet, übertrifft es den aktuellen Stand der Technik in Bezug auf audiovisuelle Salienzvorhersagemodelle auf neun verschiedenen Datensätzen (drei rein visuelle und sechs audiovisuelle Datensätze). ViNet übertreffen auch die menschliche Leistung in den Metriken CC, SIM und AUC für den AVE-Datensatz und ist nach unserem Wissen das erste Netzwerk, das dies erreicht hat. Wir untersuchen außerdem eine Variante der ViNet-Architektur, bei der Audiomerkmale in den Decoder integriert werden. Zu unserer Überraschung wird das Netzwerk nach ausreichender Schulung gegenüber der Eingabeaudiodaten indifferent und liefert unabhängig von der Eingabe dasselbe Ergebnis. Interessanterweise beobachten wir ein ähnliches Verhalten auch bei den bisherigen Stand-der-Technik-Modellen \cite{tsiami2020stavis} für audiovisuelle Salienzvorhersage. Unsere Ergebnisse stehen im Gegensatz zu früheren Arbeiten zur tiefen Lern-basierten audiovisuellen Salienzvorhersage und deuten einen klaren Weg für zukünftige Untersuchungen hin, bei denen Audio auf effektivere Weise eingebunden wird. Der Code und die vortrainierten Modelle sind unter https://github.com/samyak0210/ViNet verfügbar.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 8 Monaten

Computer Vision

Videobegreifen

Faltungsneuronales Netzwerk

Ansatz/Rahmenwerk

Computervision

Aufgabe

Samyak Jain Pradeep Yarlagadda Shreyank Jyoti Shyamgopal Karthik Ramanathan Subramanian Vineet Gandhi

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 8 Monaten

Computer Vision

Videobegreifen

Faltungsneuronales Netzwerk

Ansatz/Rahmenwerk

Computervision

Aufgabe

Samyak Jain Pradeep Yarlagadda Shreyank Jyoti Shyamgopal Karthik Ramanathan Subramanian Vineet Gandhi

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

ViNet: Die Grenzen der visuellen Modalität für die Audiovisuelle Salienzvorhersage ausloten | Paper | HyperAI

Command Palette

ViNet: Die Grenzen der visuellen Modalität für die Audiovisuelle Salienzvorhersage ausloten

Samyak Jain Pradeep Yarlagadda Shreyank Jyoti Shyamgopal Karthik Ramanathan Subramanian Vineet Gandhi

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

ViNet: Die Grenzen der visuellen Modalität für die Audiovisuelle Salienzvorhersage ausloten

Samyak Jain Pradeep Yarlagadda Shreyank Jyoti Shyamgopal Karthik Ramanathan Subramanian Vineet Gandhi

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

ViNet: Die Grenzen der visuellen Modalität für die Audiovisuelle Salienzvorhersage ausloten

Samyak Jain Pradeep Yarlagadda Shreyank Jyoti Shyamgopal Karthik Ramanathan Subramanian Vineet Gandhi

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters