Command Palette
Search for a command to run...
Training von Keyword Spotters mit begrenzten und synthetisierten Sprachdaten
Training von Keyword Spotters mit begrenzten und synthetisierten Sprachdaten
James Lin Kevin Kilgour Dominik Roblek Matthew Sharifi
Zusammenfassung
Mit dem Aufkommen von energieeffizienten, sprachgesteuerten Geräten steigt die Nachfrage nach schnellen Verfahren zur Erstellung von Modellen zur Erkennung beliebiger Schlüsselwortsätze. Wie bei vielen Aufgaben im Bereich des maschinellen Lernens stellt die Beschaffung ausreichend vieler Trainingsdaten einen der größten Herausforderungen im Modellentwicklungsprozess dar. In diesem Artikel untersuchen wir die Wirksamkeit synthetischer Sprachdaten bei der Training von kleinen Modellen für die Sprachbegriffserkennung mit etwa 400.000 Parametern. Anstatt solche Modelle direkt auf Audio- oder niedrigstufigen Merkmalen wie MFCCs zu trainieren, nutzen wir ein vortrainiertes Sprachembedding-Modell, das darauf spezialisiert ist, nützliche Merkmale für Schlüsselworterkennungsmodelle zu extrahieren. Mittels dieses Sprachembeddings zeigen wir, dass ein Modell, das auf lediglich synthetischen Sprachdaten trainiert wurde und zehn Schlüsselwörter erkennt, einer Leistung entspricht, die ein Modell erreicht, das auf über 500 realen Beispielen trainiert wurde. Zudem zeigen wir, dass ein Modell, das auf unsere Sprachembeddings verzichtet, mehr als 4000 reale Beispiele benötigen würde, um die gleiche Genauigkeit zu erreichen.