Command Palette
Search for a command to run...
BEATs: Audio-Vortrainierung mit akustischen Tokenisierern
BEATs: Audio-Vortrainierung mit akustischen Tokenisierern
Sanyuan Chen Yu Wu Chengyi Wang Shujie Liu Daniel Tompkins Zhuo Chen Furu Wei
Zusammenfassung
In den letzten Jahren ist ein massiver Aufschwung des selbstüberwachten Lernens (Self-Supervised Learning, SSL) in den Bereichen Sprache, Vision, Sprache und Audio zu beobachten. Während für andere Modalitäten die Vorhersage diskreter Labels weit verbreitet ist, verwenden die derzeit fortschrittlichsten Audio-SSL-Modelle weiterhin Rekonstruktionsverluste für das Vortrainieren. Im Gegensatz zum Rekonstruktionsverlust fördert die Vorhersage semantisch reicher diskreter Labels die Fähigkeit des SSL-Modells, hochwertige audiosemantische Merkmale abzuleiten und redundante Details abzustreifen – ähnlich wie es beim menschlichen Wahrnehmungsprozess geschieht. Ein semantisch reichhaltiger akustischer Tokenizer für die allgemeine Audio-Vortrainierung ist jedoch aufgrund der kontinuierlichen Natur von Audio und des Fehlens verfügbarer Phonemsequenzen wie bei Sprache meist nicht direkt zugänglich. Um diese Herausforderung zu bewältigen, stellen wir BEATs vor – einen iterativen Rahmen für die Vortrainierung von Audio, der bidirektionale Encoder-Repräsentationen aus Audio-Transformern (Bidirectional Encoder representations from Audio Transformers) lernt. Dabei werden akustischer Tokenizer und Audio-SSL-Modell iterativ optimiert. In der ersten Iteration nutzen wir zufällige Projektionen als akustischen Tokenizer, um ein Audio-SSL-Modell mittels Masking- und Label-Vorhersage zu trainieren. Anschließend wird ein akustischer Tokenizer für die nächste Iteration durch das Ableiten semantischer Kenntnisse aus einem bereits vortrainierten oder feinabgestimmten Audio-SSL-Modell erzeugt. Diese Iteration wird wiederholt, mit der Hoffnung auf eine wechselseitige Verbesserung von Tokenizer und Audio-SSL-Modell. Die experimentellen Ergebnisse zeigen, dass unsere akustischen Tokenizer diskrete Labels mit reicher audiosemantischer Information generieren können und unsere Audio-SSL-Modelle auf verschiedenen Benchmarks für Audio-Klassifikation state-of-the-art-Ergebnisse erzielen – selbst bei deutlich weniger Trainingsdaten und Modellparametern als frühere Ansätze. Insbesondere erreichen wir eine neue state-of-the-art-mAP von 50,6 % auf AudioSet-2M für rein audiobasierte Modelle ohne Verwendung externer Daten und eine Genauigkeit von 98,1 % auf ESC-50. Der Quellcode und die vortrainierten Modelle sind unter https://aka.ms/beats verfügbar.