HyperAIHyperAI

Command Palette

Search for a command to run...

VATT: Transformers für multimodale selbstüberwachte Lernverfahren aus rohen Video-, Audio- und Textdaten

Hassan Akbari Liangzhe Yuan Rui Qian Wei-Hong Chuang Shih-Fu Chang Yin Cui Boqing Gong

Zusammenfassung

Wir präsentieren einen Rahmen für das Lernen multimodaler Darstellungen aus unlabeled Daten unter Verwendung von konvolutionfreien Transformer-Architekturen. Insbesondere nimmt unser Video-Audio-Text-Transformer (VATT) rohe Signale als Eingaben entgegen und extrahiert multimodale Darstellungen, die ausreichend reichhaltig sind, um eine Vielzahl von nachgeschalteten Aufgaben zu unterstützen. Wir trainieren VATT end-to-end von Grund auf mithilfe multimodaler kontrastiver Verlustfunktionen und evaluieren die Leistung anhand nachgeschalteter Aufgaben wie Video-Aktionserkennung, Audio-Ereignisklassifikation, Bildklassifikation sowie Text-zu-Video-Abfrage. Darüber hinaus untersuchen wir einen modality-agnostischen, einheitlichen Backbone-Transformer, bei dem die Gewichte zwischen den drei Modalitäten geteilt werden. Wir zeigen, dass der konvolutionfreie VATT in den nachgeschalteten Aufgaben state-of-the-art Architekturen auf Basis von ConvNets übertrifft. Insbesondere erreicht der Vision-Transformer von VATT eine Top-1-Accuracy von 82,1 % auf Kinetics-400, 83,6 % auf Kinetics-600, 72,7 % auf Kinetics-700 und 41,1 % auf Moments in Time – neue Rekorde, ohne dass eine überwachte Vortrainierung erforderlich ist. Die Übertragung auf die Bildklassifikation führt zu einer Top-1-Accuracy von 78,7 % auf ImageNet, verglichen mit 64,7 % bei der direkten Trainierung desselben Transformers von Grund auf, was die Generalisierbarkeit unseres Modells unter Berücksichtigung der Domänenlücke zwischen Videos und Bildern belegt. Der Audio-Transformer von VATT erreicht zudem einen neuen Rekord bei der auf Wellenform basierenden Audio-Ereignisklassifikation mit einer mAP von 39,4 % auf AudioSet, ebenfalls ohne jede überwachte Vortrainierung. Der Quellcode von VATT ist öffentlich verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp