HyperAIHyperAI

Command Palette

Search for a command to run...

Training von Keyword Spotters mit begrenzten und synthetisierten Sprachdaten

James Lin Kevin Kilgour Dominik Roblek Matthew Sharifi

Zusammenfassung

Mit dem Aufkommen von energieeffizienten, sprachgesteuerten Geräten steigt die Nachfrage nach schnellen Verfahren zur Erstellung von Modellen zur Erkennung beliebiger Schlüsselwortsätze. Wie bei vielen Aufgaben im Bereich des maschinellen Lernens stellt die Beschaffung ausreichend vieler Trainingsdaten einen der größten Herausforderungen im Modellentwicklungsprozess dar. In diesem Artikel untersuchen wir die Wirksamkeit synthetischer Sprachdaten bei der Training von kleinen Modellen für die Sprachbegriffserkennung mit etwa 400.000 Parametern. Anstatt solche Modelle direkt auf Audio- oder niedrigstufigen Merkmalen wie MFCCs zu trainieren, nutzen wir ein vortrainiertes Sprachembedding-Modell, das darauf spezialisiert ist, nützliche Merkmale für Schlüsselworterkennungsmodelle zu extrahieren. Mittels dieses Sprachembeddings zeigen wir, dass ein Modell, das auf lediglich synthetischen Sprachdaten trainiert wurde und zehn Schlüsselwörter erkennt, einer Leistung entspricht, die ein Modell erreicht, das auf über 500 realen Beispielen trainiert wurde. Zudem zeigen wir, dass ein Modell, das auf unsere Sprachembeddings verzichtet, mehr als 4000 reale Beispiele benötigen würde, um die gleiche Genauigkeit zu erreichen.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Training von Keyword Spotters mit begrenzten und synthetisierten Sprachdaten | Paper | HyperAI