HyperAIHyperAI

Command Palette

Search for a command to run...

Vektorquantisierte neuronale Netze für die Entdeckung akustischer Einheiten in der ZeroSpeech 2020 Challenge

Benjamin van Niekerk Leanne Nortje Herman Kamper

Zusammenfassung

In dieser Arbeit untersuchen wir die Vektorquantisierung für die Entdeckung akustischer Einheiten. Unter Verwendung von unbeschrifteten Daten streben wir danach, diskrete Darstellungen der Sprache zu erlernen, die phonetische Inhalte von sprecherbezogenen Details trennen. Wir schlagen zwei neuronale Modelle vor, um diese Herausforderung anzugehen – beide verwenden Vektorquantisierung, um kontinuierliche Merkmale auf eine endliche Menge von Codes abzubilden. Das erste Modell ist eine Art vektorquantisierter variationsautoencoder (VQ-VAE). Der VQ-VAE kodiert Sprache in eine Folge diskreter Einheiten, bevor er das Audiosignal rekonstruiert. Unser zweites Modell kombiniert Vektorquantisierung mit kontrastiver prädiktiver Kodierung (VQ-CPC). Das Ziel ist es, eine Darstellung der Sprache durch die Vorhersage zukünftiger akustischer Einheiten zu erlernen. Wir evaluieren die Modelle anhand englischer und indonesischer Daten im Rahmen der ZeroSpeech 2020 Challenge. In den ABX-Telefon-DiskriminationsTests übertreffen beide Modelle alle Einreichungen der Challenges 2019 und 2020, wobei sich eine relative Verbesserung von mehr als 30 % zeigt. Die Modelle erzielen auch wettbewerbsfähige Ergebnisse bei einer nachgelagerten Aufgabe zur Stimmenkonvertierung. Von den beiden Modellen führt das VQ-CPC insgesamt leicht bessere Ergebnisse und ist einfacher und schneller zu trainieren. Schließlich zeigen Probing-Experimente, dass Vektorquantisierung ein effektives Flaschenhalsproblem darstellt, das die Modelle zwingt, sprecherbezogene Informationen zu verwerfen.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp