W2v-BERT: Kombination von Kontrastivem Lernen und Maskiertem Sprachmodellieren für selbstüberwachtes Sprachvortraining

Angeregt durch den Erfolg der masked language modeling (MLM)-Strategie bei der Vortrainierung von Sprachverarbeitungsmodellen stellen wir w2v-BERT vor, einen Ansatz, der MLM für die selbstüberwachte Lernung von Sprachrepräsentationen nutzt. w2v-BERT ist ein Rahmenwerk, das kontrastives Lernen und MLM kombiniert: Während das erste Verfahren das Modell trainiert, kontinuierliche Sprachsignale in eine endliche Menge diskriminativer Sprachtoken zu diskretisieren, lernt das zweite Verfahren durch die Lösung einer maskierten Vorhersageaufgabe kontextuelle Sprachrepräsentationen anhand dieser diskretisierten Token. Im Gegensatz zu bestehenden MLM-basierten Ansätzen wie HuBERT, die auf einem iterativen Re-Clustering- und Re-Training-Prozess beruhen, oder vq-wav2vec, bei dem zwei separat trainierte Module verkettet werden, kann w2v-BERT end-to-end optimiert werden, indem die beiden selbstüberwachten Aufgaben (das kontrastive Lernen und MLM) gleichzeitig gelöst werden. Unsere Experimente zeigen, dass w2v-BERT im Vergleich zu aktuellen state-of-the-art Vortrainingsmodellen auf den LibriSpeech-Benchmarks, wenn der unüberwachte Datensatz Libri-Light~60k verwendet wird, konkurrenzfähige Ergebnisse erzielt. Insbesondere zeigt unser Modell gegenüber veröffentlichten Modellen wie conformer-basiertem wav2vec~2.0 und HuBERT eine relative Reduktion des Wortfehleranteils (WER) um 5\% bis 10\% auf den Test-Teilsets test-clean und test-other. Bei der Anwendung auf den Voice Search-Verkehrsdatensatz von Google übertrifft w2v-BERT unser internes, conformer-basiertes wav2vec~2.0 um mehr als 30\% relativ.