Selbstüberwachtes Lernen durch multimodale Audio-Video-Clustering

Visuelle und auditive Modalitäten sind stark korreliert, enthalten jedoch unterschiedliche Informationen. Ihre starke Korrelation ermöglicht es, die Semantik der einen Modalität aus der anderen mit hoher Genauigkeit vorherzusagen. Ihre intrinsischen Unterschiede machen die cross-modale Vorhersage zu einer potenziell lohnenderen Aufgabe für das selbstüberwachte Lernen von Video- und Audio-Darstellungen im Vergleich zum innerhalb einer Modalität durchgeführten Lernen. Basierend auf dieser Intuition schlagen wir Cross-Modal Deep Clustering (XDC) vor, eine neuartige Methode des selbstüberwachten Lernens, die unsupervised Clustering in einer Modalität (z.B. Audio) als überwachendes Signal für die andere Modalität (z.B. Video) nutzt. Diese cross-modale Überwachung hilft XDC, die semantische Korrelation und die Unterschiede zwischen den beiden Modalitäten zu nutzen. Unsere Experimente zeigen, dass XDC einmodale Clustering-Methoden und andere multimodale Varianten übertrifft. XDC erreicht den Stand der Technik in Bezug auf die Genauigkeit unter den selbstüberwachten Methoden bei mehreren Video- und Audio-Benchmarks. Von größter Bedeutung ist jedoch, dass unser auf großen Mengen unlabelelter Daten vortrainiertes Videomodell bei der Aktionserkennung in HMDB51 und UCF101 erheblich besser abschneidet als das gleiche Modell, das mit vollständiger Überwachung auf ImageNet und Kinetics vortrainiert wurde. Nach bestem Wissen ist XDC die erste Methode des selbstüberwachten Lernens, die bei der Aktionserkennung in derselben Architektur groß angelegtes fully-supervised Vortraining übertrifft.