vor 2 Monaten

SpeechNAS: Auf dem Weg zu einer besseren Balance zwischen Latenz und Genauigkeit für die großskalige Sprecherauthentifizierung

Wentao Zhu; Tianlong Kong; Shun Lu; Jixiang Li; Dawei Zhang; Feng Deng; Xiaorui Wang; Sen Yang; Ji Liu

Abstract

Kürzlich hat sich der x-Vektor als erfolgreicher und beliebter Ansatz für die Sprecherauthentifizierung etabliert, der eine zeitverzögerte neuronale Netzwerkstruktur (Time Delay Neural Network, TDNN) und statistische Pooling verwendet, um aus variabler Länge von Aussprachen ein Sprecherkennungs-Embedding zu extrahieren. Die Verbesserung des x-Vektors ist ein aktives Forschungsfeld, und auf dessen Grundlage wurden zahlreiche neuronale Netzwerke sorgfältig entwickelt, wie zum Beispiel erweiterte TDNNs (Extended TDNN, E-TDNN), faktorisierte TDNNs (Factorized TDNN, F-TDNN) und dicht verbundene TDNNs (Densely Connected TDNN, D-TDNN). In dieser Arbeit versuchen wir, optimale Architekturen aus einem Suchraum basierend auf TDNNs durch die Verwendung von neuronalen Architektursuchverfahren (Neural Architecture Search, NAS) zu identifizieren, wobei das Verfahren SpeechNAS genannt wird. Indem wir uns auf jüngste Fortschritte im Bereich der Sprechererkennung stützen, wie z.B. Hochordnungs-Statistik-Pooling, Multibranch-Mechanismus, D-TDNN und den Winkeladditiven Margensoftmax-Verlust (Angular Additive Margin Softmax Loss, AAM) mit minimaler hypersphärischer Energie (Minimum Hyper-Spherical Energy, MHE), entdeckt SpeechNAS automatisch fünf Netzwerkarchitekturen – von SpeechNAS-1 bis SpeechNAS-5 – mit unterschiedlichen Anzahlen von Parametern und GFLOPs auf dem groß angelegten textunabhängigen Sprechererkennungsdatensatz VoxCeleb1. Unser bestes abgeleitetes neuronales Netzwerk erreicht einen Gleichfehler-Rate (Equal Error Rate, EER) von 1,02 % im Standardtestset von VoxCeleb1, was deutlich besser ist als bisherige state-of-the-art-Ansätze basierend auf TDNNs. Der Quellcode und die trainierten Gewichte sind unter https://github.com/wentaozhu/speechnas.git verfügbar.