Masked Autoencoder, die hören

Diese Arbeit untersucht eine einfache Erweiterung von bildbasierten Masked Autoencoders (MAE) für das selbstüberwachte Lernen von Darstellungen aus Audiospektrogrammen. Anschließend an die Transformer-Encoder-Decoder-Architektur im ursprünglichen MAE kodiert unser Audio-MAE zunächst Audio-Spektrogramm-Patches mit einem hohen Maskierungsanteil und überträgt nur die nicht-maskierten Tokens durch die Encoder-Schichten. Der Decoder rekonstruiert anschließend die Eingabespektrogramme, indem er den kodierten Kontext mit Maskentokens auffüllt und neu anordnet. Wir stellen fest, dass die Einbindung von lokalem Fenster-Attention im Decoder vorteilhaft ist, da Audiospektrogramme in lokalen Zeit- und Frequenzbereichen stark korreliert sind. Anschließend feinjustieren wir den Encoder auf den Ziel-Datensätzen mit einem geringeren Maskierungsanteil. Experimentell erreicht Audio-MAE neue State-of-the-Art-Ergebnisse auf sechs Audio- und Sprachklassifikationsaufgaben und übertrifft dabei andere neuere Modelle, die externe überwachte Vortrainingsdaten verwenden. Der Quellcode und die Modelle sind unter https://github.com/facebookresearch/AudioMAE verfügbar.