vor 2 Monaten

Kontrastiver audiovisueller Masked Autoencoder

Yuan Gong; Andrew Rouditchenko; Alexander H. Liu; David Harwath; Leonid Karlinsky; Hilde Kuehne; James Glass

Abstract

In dieser Arbeit erweitern wir zunächst das kürzlich vorgestellte Modell des Maskierten Auto-Encoders (MAE) von einer einzelnen Modalität auf audiovisuelle Multimodalitäten. Anschließend schlagen wir den kontrastiven audiovisuellen Maskierten Auto-Encoder (CAV-MAE) vor, indem wir kontrastives Lernen und maskiertes Datenmodellieren, zwei zentrale Ansätze des selbstüberwachten Lernens, kombinieren, um eine gemeinsame und koordinierte audiovisuelle Repräsentation zu erlernen. Unsere Experimente zeigen, dass das Lernziel der kontrastiven audiovisuellen Korrespondenz nicht nur die Ausführung von audiovisuellen Retrieval-Aufgaben ermöglicht, sondern auch dazu beiträgt, dass das Modell eine bessere gemeinsame Repräsentation lernt. Als Ergebnis erreicht unser vollständig selbstüberwachtes vortrainiertes CAV-MAE eine neue Top-Akkuranz von 65,9 % auf VGGSound und ist vergleichbar mit dem bisher besten überwachten vortrainierten Modell auf AudioSet in der audiovisuellen Ereignisklassifikation. Der Quellcode und die vortrainierten Modelle sind unter https://github.com/yuangongnd/cav-mae verfügbar.