VATT: Transformers für multimodale selbstüberwachte Lernverfahren aus rohen Video-, Audio- und Textdaten

Wir präsentieren einen Rahmen für das Lernen multimodaler Darstellungen aus unlabeled Daten unter Verwendung von konvolutionfreien Transformer-Architekturen. Insbesondere nimmt unser Video-Audio-Text-Transformer (VATT) rohe Signale als Eingaben entgegen und extrahiert multimodale Darstellungen, die ausreichend reichhaltig sind, um eine Vielzahl von nachgeschalteten Aufgaben zu unterstützen. Wir trainieren VATT end-to-end von Grund auf mithilfe multimodaler kontrastiver Verlustfunktionen und evaluieren die Leistung anhand nachgeschalteter Aufgaben wie Video-Aktionserkennung, Audio-Ereignisklassifikation, Bildklassifikation sowie Text-zu-Video-Abfrage. Darüber hinaus untersuchen wir einen modality-agnostischen, einheitlichen Backbone-Transformer, bei dem die Gewichte zwischen den drei Modalitäten geteilt werden. Wir zeigen, dass der konvolutionfreie VATT in den nachgeschalteten Aufgaben state-of-the-art Architekturen auf Basis von ConvNets übertrifft. Insbesondere erreicht der Vision-Transformer von VATT eine Top-1-Accuracy von 82,1 % auf Kinetics-400, 83,6 % auf Kinetics-600, 72,7 % auf Kinetics-700 und 41,1 % auf Moments in Time – neue Rekorde, ohne dass eine überwachte Vortrainierung erforderlich ist. Die Übertragung auf die Bildklassifikation führt zu einer Top-1-Accuracy von 78,7 % auf ImageNet, verglichen mit 64,7 % bei der direkten Trainierung desselben Transformers von Grund auf, was die Generalisierbarkeit unseres Modells unter Berücksichtigung der Domänenlücke zwischen Videos und Bildern belegt. Der Audio-Transformer von VATT erreicht zudem einen neuen Rekord bei der auf Wellenform basierenden Audio-Ereignisklassifikation mit einer mAP von 39,4 % auf AudioSet, ebenfalls ohne jede überwachte Vortrainierung. Der Quellcode von VATT ist öffentlich verfügbar.