wav2vec 2.0: Ein Rahmenwerk für das selbstüberwachte Lernen von Sprachdarstellungen

Erstmals zeigen wir, dass die Lernung leistungsfähiger Darstellungen allein aus Sprachaudio gefolgt von einem Feinabstimmen auf transkribierte Sprache die besten semi-supervised Methoden übertrifft, während das Konzept konzeptionell einfacher bleibt. wav2vec 2.0 maskiert die Spracheingabe im latenzraum und löst eine kontrastive Aufgabe, die auf einer Quantisierung der latenzraumbezogenen Darstellungen basiert, die gemeinsam gelernt werden. Experimente mit allen gelabelten Daten von Librispeech erreichen eine Fehlerquote von 1,8/3,3 WER auf den Testsets „clean“/„other“. Wenn die Menge an gelabelten Daten auf eine Stunde reduziert wird, übertrifft wav2vec 2.0 die vorherige State-of-the-Art-Methode auf dem 100-Stunden-Unterdatensatz, wobei jedoch 100-mal weniger gelabelte Daten verwendet werden. Mit lediglich zehn Minuten gelabelter Daten und einer Vortrainingsphase auf 53.000 Stunden unlabeled Daten wird dennoch eine Fehlerquote von 4,8/8,2 WER erreicht. Dies zeigt die Machbarkeit der Spracherkennung mit begrenzten Mengen an gelabelten Daten.