WavLM: Großskaliges selbstüberwachtes Vortrainieren für den vollständigen Stack der Sprachverarbeitung

Selbstüberwachtes Lernen (SSL) hat in der Spracherkennung erheblichen Erfolg erzielt, während für andere Aufgaben im Bereich der Sprachverarbeitung nur begrenzt erforscht wurde. Da Sprachsignale vielschichtige Informationen enthalten – wie z. B. Sprecheridentität, paralinguistische Merkmale und gesprochene Inhalte – ist die Entwicklung universeller Darstellungen für alle Sprachaufgaben herausfordernd. Um dieses Problem anzugehen, schlagen wir ein neues vortrainiertes Modell, WavLM, vor, das eine umfassende Bearbeitung von nachgeschalteten Sprachaufgaben ermöglicht. WavLM lernt während des Vortrainings gleichzeitig die Vorhersage maskierter Sprachsignale und die Rauschunterdrückung. Auf diese Weise behält WavLM nicht nur die Fähigkeit zur Modellierung sprachlicher Inhalte durch die Vorhersage maskierter Sprache bei, sondern verbessert zudem das Potenzial für nicht-ASR-Aufgaben durch die Rauschunterdrückung. Zudem integriert WavLM eine gatable relative Positionsbias-Implementierung in die Transformer-Architektur, um die Sequenzordnung der Eingabesprache effizienter zu erfassen. Außerdem wurde die Trainingsdatenmenge von 60.000 auf 94.000 Stunden erweitert. WavLM Large erreicht Spitzenleistung auf der SUPERB-Benchmark und bringt erhebliche Verbesserungen für verschiedene Aufgaben der Sprachverarbeitung auf ihren repräsentativen Benchmarks. Der Quellcode und die vortrainierten Modelle sind unter https://aka.ms/wavlm verfügbar.