Verbesserung von unsupervisierten sparsen Sprachakustikmodellen durch kategorische Reparametrisierung

Das Sparsespeech-Modell ist ein unsupervisioniertes akustisches Modell, das diskrete Pseudolabels für transkriptionsfreie Sprache generieren kann. Wir erweitern das Sparsespeech-Modell, um Stichproben aus einer zufälligen diskreten Variablen zu ermöglichen, wodurch sogenannte Pseudoposteriorgramme entstehen. Der Grad der Sparsität in diesem Posteriorgramm lässt sich vollständig nach der Modelltrainingsphase steuern. Zur näherungsweisen Stichprobenziehung aus einer diskreten Verteilung innerhalb des neuronalen Netzwerks verwenden wir die Gumbel-Softmax-Technik, was eine effiziente Netzwerktrainierung mit herkömmlicher Rückpropagation ermöglicht. Das neue und verbesserte Modell wird auf der Libri-Light-Datenbank trainiert und evaluiert, einem Benchmark für Spracherkennung (ASR) unter begrenzter oder keiner Supervision. Das Modell wird auf 600 Stunden und 6000 Stunden englischer, vorgelesener Sprache trainiert. Die Evaluierung des verbesserten Modells erfolgt mittels der ABX-Fehlermaßzahl und in einer semi-supervisionierten Einstellung mit 10 Stunden transkribierter Sprache. Wir beobachten eine relative Verbesserung von bis zu 31,4 % bei den ABX-Fehlerquoten über verschiedene Sprecher hinweg auf dem Testset, wenn das verbesserte Sparsespeech-Modell auf 600 Stunden Sprachdaten angewendet wird, sowie weitere Verbesserungen, wenn das Modell auf 6000 Stunden skaliert wird.