Audiovisuelle maskierte Autoencoder

Können wir die bereits in Videos enthaltene audiovisuelle Information nutzen, um das selbstüberwachte Darstellungslernen zu verbessern? Um diese Frage zu beantworten, untersuchen wir verschiedene Vortrainingsarchitekturen und -ziele im Rahmen des Masked Autoencoding-Ansatzes, motiviert durch den Erfolg ähnlicher Methoden in der Sprach- und Bildverarbeitung. Wir zeigen, dass wir erhebliche Verbesserungen bei audiovisuellen Downstream-Klassifikationsaufgaben erzielen können, wobei wir die bisherigen State-of-the-Art-Ergebnisse auf VGGSound und AudioSet übertreffen. Zudem können wir unser audiovisuelles Vortrainingsverfahren für mehrere unimodale Downstream-Aufgaben nutzen, wobei lediglich ein einziger audiovisueller vortrainierter Modell verwendet wird. Darüber hinaus demonstrieren wir die Übertragbarkeit unserer Darstellungen und erreichen state-of-the-art-Ergebnisse im audiovisuellen Bereich auf Epic Kitchens, ohne dass speziell für dieses Datensatz vortrainiert wurde.