HyperAIHyperAI

Command Palette

Search for a command to run...

Kontrastiver audiovisueller Masked Autoencoder

Yuan Gong; Andrew Rouditchenko; Alexander H. Liu; David Harwath; Leonid Karlinsky; Hilde Kuehne; James Glass

Zusammenfassung

In dieser Arbeit erweitern wir zunächst das kürzlich vorgestellte Modell des Maskierten Auto-Encoders (MAE) von einer einzelnen Modalität auf audiovisuelle Multimodalitäten. Anschließend schlagen wir den kontrastiven audiovisuellen Maskierten Auto-Encoder (CAV-MAE) vor, indem wir kontrastives Lernen und maskiertes Datenmodellieren, zwei zentrale Ansätze des selbstüberwachten Lernens, kombinieren, um eine gemeinsame und koordinierte audiovisuelle Repräsentation zu erlernen. Unsere Experimente zeigen, dass das Lernziel der kontrastiven audiovisuellen Korrespondenz nicht nur die Ausführung von audiovisuellen Retrieval-Aufgaben ermöglicht, sondern auch dazu beiträgt, dass das Modell eine bessere gemeinsame Repräsentation lernt. Als Ergebnis erreicht unser vollständig selbstüberwachtes vortrainiertes CAV-MAE eine neue Top-Akkuranz von 65,9 % auf VGGSound und ist vergleichbar mit dem bisher besten überwachten vortrainierten Modell auf AudioSet in der audiovisuellen Ereignisklassifikation. Der Quellcode und die vortrainierten Modelle sind unter https://github.com/yuangongnd/cav-mae verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp