HyperAIHyperAI
vor 17 Tagen

Netzwerk zur Umformung von Dimensionen für die Sprechererkennung

Ivan Yakovlev, Rostislav Makarov, Andrei Balykin, Pavel Malov, Anton Okhotnikov, Nikita Torgashov
Netzwerk zur Umformung von Dimensionen für die Sprechererkennung
Abstract

In diesem Artikel präsentieren wir den Reshape Dimensions Network (ReDimNet), eine neuartige neuronale Netzwerkarchitektur zur Extraktion von Sprecherrepräsentationen auf Satzebene. Unser Ansatz nutzt die Umformung von zweidimensionalen Merkmalskarten (2D feature maps) in eindimensionale Signalrepräsentationen und umgekehrt, wodurch die gemeinsame Nutzung von 1D- und 2D-Blöcken ermöglicht wird. Wir schlagen eine originelle Netztopologie vor, die das Volumen der Kanal-Zeit-Schritt-Frequenz-Ausgaben von 1D- und 2D-Blöcken bewahrt und somit eine effiziente Aggregation von Residual-Merkmalskarten unterstützt. Zudem ist ReDimNet effizient skalierbar, weshalb wir eine Reihe von Modellgrößen vorstellen, die sich von 1 bis 15 M Parameter und von 0,5 bis 20 GMACs bewegen. Unsere experimentellen Ergebnisse zeigen, dass ReDimNet eine state-of-the-art-Leistung in der Sprechererkennung erzielt, während gleichzeitig die rechnerische Komplexität und die Anzahl der Modellparameter reduziert werden.