BEATs: Audio-Vortrainierung mit akustischen Tokenisierern

In den letzten Jahren ist ein massiver Aufschwung des selbstüberwachten Lernens (Self-Supervised Learning, SSL) in den Bereichen Sprache, Vision, Sprache und Audio zu beobachten. Während für andere Modalitäten die Vorhersage diskreter Labels weit verbreitet ist, verwenden die derzeit fortschrittlichsten Audio-SSL-Modelle weiterhin Rekonstruktionsverluste für das Vortrainieren. Im Gegensatz zum Rekonstruktionsverlust fördert die Vorhersage semantisch reicher diskreter Labels die Fähigkeit des SSL-Modells, hochwertige audiosemantische Merkmale abzuleiten und redundante Details abzustreifen – ähnlich wie es beim menschlichen Wahrnehmungsprozess geschieht. Ein semantisch reichhaltiger akustischer Tokenizer für die allgemeine Audio-Vortrainierung ist jedoch aufgrund der kontinuierlichen Natur von Audio und des Fehlens verfügbarer Phonemsequenzen wie bei Sprache meist nicht direkt zugänglich. Um diese Herausforderung zu bewältigen, stellen wir BEATs vor – einen iterativen Rahmen für die Vortrainierung von Audio, der bidirektionale Encoder-Repräsentationen aus Audio-Transformern (Bidirectional Encoder representations from Audio Transformers) lernt. Dabei werden akustischer Tokenizer und Audio-SSL-Modell iterativ optimiert. In der ersten Iteration nutzen wir zufällige Projektionen als akustischen Tokenizer, um ein Audio-SSL-Modell mittels Masking- und Label-Vorhersage zu trainieren. Anschließend wird ein akustischer Tokenizer für die nächste Iteration durch das Ableiten semantischer Kenntnisse aus einem bereits vortrainierten oder feinabgestimmten Audio-SSL-Modell erzeugt. Diese Iteration wird wiederholt, mit der Hoffnung auf eine wechselseitige Verbesserung von Tokenizer und Audio-SSL-Modell. Die experimentellen Ergebnisse zeigen, dass unsere akustischen Tokenizer diskrete Labels mit reicher audiosemantischer Information generieren können und unsere Audio-SSL-Modelle auf verschiedenen Benchmarks für Audio-Klassifikation state-of-the-art-Ergebnisse erzielen – selbst bei deutlich weniger Trainingsdaten und Modellparametern als frühere Ansätze. Insbesondere erreichen wir eine neue state-of-the-art-mAP von 50,6 % auf AudioSet-2M für rein audiobasierte Modelle ohne Verwendung externer Daten und eine Genauigkeit von 98,1 % auf ESC-50. Der Quellcode und die vortrainierten Modelle sind unter https://aka.ms/beats verfügbar.