HyperAIHyperAI
vor 17 Tagen

HuBERT: Selbstüberwachtes Lernen von Sprachrepräsentationen durch maskierte Vorhersage versteckter Einheiten

Wei-Ning Hsu, Benjamin Bolte, Yao-Hung Hubert Tsai, Kushal Lakhotia, Ruslan Salakhutdinov, Abdelrahman Mohamed
HuBERT: Selbstüberwachtes Lernen von Sprachrepräsentationen durch maskierte Vorhersage versteckter Einheiten
Abstract

Selbstüberwachte Ansätze zur Sprachrepräsentationslernung stehen vor drei spezifischen Herausforderungen: (1) Jede Eingabesprechung enthält mehrere akustische Einheiten, (2) während der Vortrainierungsphase existiert kein Lexikon der Eingabeeinheiten, und (3) die akustischen Einheiten weisen variable Längen auf und sind nicht explizit segmentiert. Um diese drei Probleme zu bewältigen, stellen wir den Hidden-Unit BERT (HuBERT)-Ansatz für selbstüberwachtes Lernen von Sprachrepräsentationen vor, der einen offline-Clusteringschritt nutzt, um konsistente Zielbezeichnungen für eine BERT-ähnliche Vorhersageverlustfunktion bereitzustellen. Ein zentrales Merkmal unseres Ansatzes ist die Anwendung des Vorhersageverlusts ausschließlich auf maskierte Bereiche, was das Modell zwingt, eine kombinierte akustische und sprachliche Modellierung über kontinuierliche Eingaben zu erlernen. HuBERT beruht primär auf der Konsistenz des unsupervisierten Clusteringschritts, weniger auf der intrinsischen Qualität der zugewiesenen Clusterbezeichnungen. Beginnend mit einem einfachen k-Means-Teacher mit 100 Clustern und zwei Iterationen des Clusterings erreicht das HuBERT-Modell entweder die Leistungsgrenze oder übertrifft die aktuell beste Leistung von wav2vec 2.0 auf den Benchmarks Librispeech (960h) und Libri-light (60.000h) für Feinabstimmungsuntergruppen von 10 Minuten, 1 Stunde, 10 Stunden, 100 Stunden und 960 Stunden. Mit einem Modell von 1 Milliarde Parametern zeigt HuBERT eine relative Reduktion des Wortfehleranteils (WER) von bis zu 19 % und 13 % auf den anspruchsvolleren Evaluationsuntergruppen dev-other und test-other.