HyperAIHyperAI
vor 17 Tagen

MatchboxNet: 1D Time-Channel-separable Convolutional Neural Network-Architektur für die Sprachbefehls-Erkennung

Somshubra Majumdar, Boris Ginsburg
MatchboxNet: 1D Time-Channel-separable Convolutional Neural Network-Architektur für die Sprachbefehls-Erkennung
Abstract

Wir präsentieren MatchboxNet – ein end-to-end-neuronales Netzwerk für die Sprachbefehls-Erkennung. MatchboxNet ist ein tiefes Residual-Netzwerk, das aus Blöcken bestehend aus 1D-zeitkanal-separabler Faltung, Batch-Normalisierung, ReLU und Dropout-Layern aufgebaut ist. MatchboxNet erreicht einen Stand der Technik (state-of-the-art)-Genauigkeitswert auf dem Google Speech Commands-Datensatz, während es signifikant weniger Parameter als vergleichbare Modelle besitzt. Das geringe Speicherbedarf- und Rechenbedarf-Profil von MatchboxNet macht es zu einer attraktiven Wahl für Geräte mit begrenzten Rechenressourcen. Das Modell ist außerdem hoch skalierbar, sodass die Modellgenauigkeit mit nur geringfügigem zusätzlichen Speicher- und Rechenaufwand verbessert werden kann. Schließlich zeigen wir, wie eine intensive Daten-Augmentation mittels eines zusätzlichen Rausch-Datensatzes die Robustheit gegenüber Hintergrundrauschen erhöht.