HyperAIHyperAI
vor 11 Tagen

Masked Autoencoder, die hören

Po-Yao Huang, Hu Xu, Juncheng Li, Alexei Baevski, Michael Auli, Wojciech Galuba, Florian Metze, Christoph Feichtenhofer
Masked Autoencoder, die hören
Abstract

Diese Arbeit untersucht eine einfache Erweiterung von bildbasierten Masked Autoencoders (MAE) für das selbstüberwachte Lernen von Darstellungen aus Audiospektrogrammen. Anschließend an die Transformer-Encoder-Decoder-Architektur im ursprünglichen MAE kodiert unser Audio-MAE zunächst Audio-Spektrogramm-Patches mit einem hohen Maskierungsanteil und überträgt nur die nicht-maskierten Tokens durch die Encoder-Schichten. Der Decoder rekonstruiert anschließend die Eingabespektrogramme, indem er den kodierten Kontext mit Maskentokens auffüllt und neu anordnet. Wir stellen fest, dass die Einbindung von lokalem Fenster-Attention im Decoder vorteilhaft ist, da Audiospektrogramme in lokalen Zeit- und Frequenzbereichen stark korreliert sind. Anschließend feinjustieren wir den Encoder auf den Ziel-Datensätzen mit einem geringeren Maskierungsanteil. Experimentell erreicht Audio-MAE neue State-of-the-Art-Ergebnisse auf sechs Audio- und Sprachklassifikationsaufgaben und übertrifft dabei andere neuere Modelle, die externe überwachte Vortrainingsdaten verwenden. Der Quellcode und die Modelle sind unter https://github.com/facebookresearch/AudioMAE verfügbar.

Masked Autoencoder, die hören | Neueste Forschungsarbeiten | HyperAI