MT4SSL: Verbesserung der selbstüberwachten Sprachrepräsentationslernen durch Integration mehrerer Ziele

In diesem Paper bieten wir eine neue Perspektive auf selbstüberwachte Sprachmodelle aus Sicht der Herkunft der Trainingsziele. Wir verallgemeinern den Zielextraktor zu einem Offline-Ziel-Extraktor (Off-TE) und einem Online-Ziel-Extraktor (On-TE). Auf dieser Grundlage schlagen wir einen neuen Multi-Task-Lernframework für selbstüberwachtes Lernen vor, namens MT4SSL, was für „Boosting Self-Supervised Speech Representation Learning by Integrating Multiple Targets“ steht. MT4SSL verwendet den K-Means-Algorithmus als Off-TE und ein Lehrernetzwerk ohne Gradientenberechnung als On-TE. Unser Modell erreicht auf der LibriSpeech-Benchmark-Testreihe signifikante Verbesserungen gegenüber vorherigen SSL-Methoden und ist mit weniger Trainingsdaten vergleichbar oder sogar besser als die derzeit besten Modelle. Zudem stellen wir fest, dass die gleichzeitige Verwendung von Off-TE und On-TE eine bessere Konvergenz im Vortrainingsphase ermöglicht. Angesichts der hohen Effektivität und Effizienz halten wir es für vielversprechend, vom hier vorgestellten Ansatz her selbstüberwachte Sprachmodelle mittels Multi-Task-Lernen weiterzuentwickeln.