Command Palette
Search for a command to run...
Kooperatives Lernen von Audiomodellen und Videomodellen durch selbstüberwachte Synchronisation
Kooperatives Lernen von Audiomodellen und Videomodellen durch selbstüberwachte Synchronisation
Bruno Korbar Du Tran Lorenzo Torresani
Zusammenfassung
Es besteht eine natürliche Korrelation zwischen den visuellen und akustischen Elementen eines Videos. In dieser Arbeit nutzen wir diese Verbindung, um allgemeine und effektive Modelle für die Audiodaten- und Videodatenanalyse durch selbstüberwachtes zeitliches Synchronisierungslernen zu entwickeln. Wir zeigen, dass ein kalibriertes Curriculum-Lernschema, eine sorgfältige Auswahl negativer Beispiele und die Verwendung eines kontrastiven Verlusts entscheidende Bestandteile sind, um leistungsstarke multisensorische Repräsentationen aus Modellen zu gewinnen, die optimiert wurden, um die zeitliche Synchronisation von Audio-Video-Paaren zu erkennen. Ohne weitere Feinabstimmung erreichen die resultierenden Audio-Features eine Leistung, die der Stand der Technik (DCASE2014 und ESC-50) überlegen oder zumindest vergleichbar ist. Gleichzeitig bietet unser visuelles Untermodell eine sehr effektive Initialisierung, um die Genauigkeit von videobasierten Aktionserkennungsmodellen zu verbessern: im Vergleich zum Lernen von Grund auf erzielt unsere selbstüberwachte Vortrainingsphase einen bemerkenswerten Anstieg von +19,9 % in der Aktionserkennungs-genauigkeit auf UCF101 und eine Steigerung von +17,7 % auf HMDB51.