vor 2 Monaten

Selbstüberwachtes audiovisuelles Repräsentationslernen mit entspannter multimodaler Synchronizität

Sarkar, Pritam ; Etemad, Ali

Abstract

Wir präsentieren CrissCross, ein selbstüberwachtes Framework zur Lernung von audiovisuellen Repräsentationen. In unserem Framework wird ein neuer Ansatz eingeführt, bei dem neben der Lernung von innermodalen und standardmäßigen „synchronen“ multimodalen Beziehungen auch „asynchrone“ multimodale Beziehungen gelernt werden. Wir führen umfassende Studien durch, die zeigen, dass durch Lockerung der zeitlichen Synchronität zwischen den auditiven und visuellen Modalitäten das Netzwerk starke generalisierte Repräsentationen lernt, die für eine Vielzahl von nachgelagerten Aufgaben nützlich sind. Zum Vortrainieren unserer vorgeschlagenen Lösung verwenden wir 3 verschiedene Datensätze unterschiedlicher Größen: Kinetics-Sound, Kinetics400 und AudioSet. Die gelernten Repräsentationen werden anhand mehrerer nachgelagerter Aufgaben evaluiert, darunter Aktionserkennung, Klangklassifizierung und Aktionssuche. Unsere Experimente zeigen, dass CrissCross entweder bessere Ergebnisse erzielt oder sich mit den aktuellen state-of-the-art selbstüberwachten Methoden auf den Gebieten der Aktionserkennung und Aktionssuche (mit UCF101 und HMDB51) sowie der Klangklassifizierung (mit ESC50 und DCASE) vergleicht. Darüber hinaus übertrifft CrissCross das vollständig überwachte Vortrainieren, wenn es auf Kinetics-Sound vortrainiert wird. Der Quellcode und die vortrainierten Modelle sind auf der Projektwebsite verfügbar.