HyperAIHyperAI

Command Palette

Search for a command to run...

Masked Autoencoder, die hören

Po-Yao Huang Hu Xu Juncheng Li Alexei Baevski Michael Auli Wojciech Galuba Florian Metze Christoph Feichtenhofer

Zusammenfassung

Diese Arbeit untersucht eine einfache Erweiterung von bildbasierten Masked Autoencoders (MAE) für das selbstüberwachte Lernen von Darstellungen aus Audiospektrogrammen. Anschließend an die Transformer-Encoder-Decoder-Architektur im ursprünglichen MAE kodiert unser Audio-MAE zunächst Audio-Spektrogramm-Patches mit einem hohen Maskierungsanteil und überträgt nur die nicht-maskierten Tokens durch die Encoder-Schichten. Der Decoder rekonstruiert anschließend die Eingabespektrogramme, indem er den kodierten Kontext mit Maskentokens auffüllt und neu anordnet. Wir stellen fest, dass die Einbindung von lokalem Fenster-Attention im Decoder vorteilhaft ist, da Audiospektrogramme in lokalen Zeit- und Frequenzbereichen stark korreliert sind. Anschließend feinjustieren wir den Encoder auf den Ziel-Datensätzen mit einem geringeren Maskierungsanteil. Experimentell erreicht Audio-MAE neue State-of-the-Art-Ergebnisse auf sechs Audio- und Sprachklassifikationsaufgaben und übertrifft dabei andere neuere Modelle, die externe überwachte Vortrainingsdaten verwenden. Der Quellcode und die Modelle sind unter https://github.com/facebookresearch/AudioMAE verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp