vor 2 Monaten

Vektorquantisierte neuronale Netze für die Entdeckung akustischer Einheiten in der ZeroSpeech 2020 Challenge

Benjamin van Niekerk; Leanne Nortje; Herman Kamper

Abstract

In dieser Arbeit untersuchen wir die Vektorquantisierung für die Entdeckung akustischer Einheiten. Unter Verwendung von unbeschrifteten Daten streben wir danach, diskrete Darstellungen der Sprache zu erlernen, die phonetische Inhalte von sprecherbezogenen Details trennen. Wir schlagen zwei neuronale Modelle vor, um diese Herausforderung anzugehen – beide verwenden Vektorquantisierung, um kontinuierliche Merkmale auf eine endliche Menge von Codes abzubilden. Das erste Modell ist eine Art vektorquantisierter variationsautoencoder (VQ-VAE). Der VQ-VAE kodiert Sprache in eine Folge diskreter Einheiten, bevor er das Audiosignal rekonstruiert. Unser zweites Modell kombiniert Vektorquantisierung mit kontrastiver prädiktiver Kodierung (VQ-CPC). Das Ziel ist es, eine Darstellung der Sprache durch die Vorhersage zukünftiger akustischer Einheiten zu erlernen. Wir evaluieren die Modelle anhand englischer und indonesischer Daten im Rahmen der ZeroSpeech 2020 Challenge. In den ABX-Telefon-DiskriminationsTests übertreffen beide Modelle alle Einreichungen der Challenges 2019 und 2020, wobei sich eine relative Verbesserung von mehr als 30 % zeigt. Die Modelle erzielen auch wettbewerbsfähige Ergebnisse bei einer nachgelagerten Aufgabe zur Stimmenkonvertierung. Von den beiden Modellen führt das VQ-CPC insgesamt leicht bessere Ergebnisse und ist einfacher und schneller zu trainieren. Schließlich zeigen Probing-Experimente, dass Vektorquantisierung ein effektives Flaschenhalsproblem darstellt, das die Modelle zwingt, sprecherbezogene Informationen zu verwerfen.