HyperAIHyperAI

Command Palette

Search for a command to run...

Kooperatives Lernen von Audiomodellen und Videomodellen durch selbstüberwachte Synchronisation

Bruno Korbar Du Tran Lorenzo Torresani

Zusammenfassung

Es besteht eine natürliche Korrelation zwischen den visuellen und akustischen Elementen eines Videos. In dieser Arbeit nutzen wir diese Verbindung, um allgemeine und effektive Modelle für die Audiodaten- und Videodatenanalyse durch selbstüberwachtes zeitliches Synchronisierungslernen zu entwickeln. Wir zeigen, dass ein kalibriertes Curriculum-Lernschema, eine sorgfältige Auswahl negativer Beispiele und die Verwendung eines kontrastiven Verlusts entscheidende Bestandteile sind, um leistungsstarke multisensorische Repräsentationen aus Modellen zu gewinnen, die optimiert wurden, um die zeitliche Synchronisation von Audio-Video-Paaren zu erkennen. Ohne weitere Feinabstimmung erreichen die resultierenden Audio-Features eine Leistung, die der Stand der Technik (DCASE2014 und ESC-50) überlegen oder zumindest vergleichbar ist. Gleichzeitig bietet unser visuelles Untermodell eine sehr effektive Initialisierung, um die Genauigkeit von videobasierten Aktionserkennungsmodellen zu verbessern: im Vergleich zum Lernen von Grund auf erzielt unsere selbstüberwachte Vortrainingsphase einen bemerkenswerten Anstieg von +19,9 % in der Aktionserkennungs-genauigkeit auf UCF101 und eine Steigerung von +17,7 % auf HMDB51.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Kooperatives Lernen von Audiomodellen und Videomodellen durch selbstüberwachte Synchronisation | Paper | HyperAI