vor 8 Monaten

Zusammenfassung

Es besteht eine natürliche Korrelation zwischen den visuellen und akustischen Elementen eines Videos. In dieser Arbeit nutzen wir diese Verbindung, um allgemeine und effektive Modelle für die Audiodaten- und Videodatenanalyse durch selbstüberwachtes zeitliches Synchronisierungslernen zu entwickeln. Wir zeigen, dass ein kalibriertes Curriculum-Lernschema, eine sorgfältige Auswahl negativer Beispiele und die Verwendung eines kontrastiven Verlusts entscheidende Bestandteile sind, um leistungsstarke multisensorische Repräsentationen aus Modellen zu gewinnen, die optimiert wurden, um die zeitliche Synchronisation von Audio-Video-Paaren zu erkennen. Ohne weitere Feinabstimmung erreichen die resultierenden Audio-Features eine Leistung, die der Stand der Technik (DCASE2014 und ESC-50) überlegen oder zumindest vergleichbar ist. Gleichzeitig bietet unser visuelles Untermodell eine sehr effektive Initialisierung, um die Genauigkeit von videobasierten Aktionserkennungsmodellen zu verbessern: im Vergleich zum Lernen von Grund auf erzielt unsere selbstüberwachte Vortrainingsphase einen bemerkenswerten Anstieg von +19,9 % in der Aktionserkennungs-genauigkeit auf UCF101 und eine Steigerung von +17,7 % auf HMDB51.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 8 Monaten

Multimodal

Multimodale Darstellung

Bruno Korbar Du Tran Lorenzo Torresani

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 8 Monaten

Multimodal

Multimodale Darstellung

Bruno Korbar Du Tran Lorenzo Torresani

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

Kooperatives Lernen von Audiomodellen und Videomodellen durch selbstüberwachte Synchronisation

Bruno Korbar Du Tran Lorenzo Torresani

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Kooperatives Lernen von Audiomodellen und Videomodellen durch selbstüberwachte Synchronisation

Bruno Korbar Du Tran Lorenzo Torresani

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Kooperatives Lernen von Audiomodellen und Videomodellen durch selbstüberwachte Synchronisation

Bruno Korbar Du Tran Lorenzo Torresani

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters