HyperAIHyperAI

Command Palette

Search for a command to run...

SpeechNAS: Auf dem Weg zu einer besseren Balance zwischen Latenz und Genauigkeit für die großskalige Sprecherauthentifizierung

Wentao Zhu Tianlong Kong Shun Lu Jixiang Li Dawei Zhang Feng Deng Xiaorui Wang Sen Yang Ji Liu

Zusammenfassung

Kürzlich hat sich der x-Vektor als erfolgreicher und beliebter Ansatz für die Sprecherauthentifizierung etabliert, der eine zeitverzögerte neuronale Netzwerkstruktur (Time Delay Neural Network, TDNN) und statistische Pooling verwendet, um aus variabler Länge von Aussprachen ein Sprecherkennungs-Embedding zu extrahieren. Die Verbesserung des x-Vektors ist ein aktives Forschungsfeld, und auf dessen Grundlage wurden zahlreiche neuronale Netzwerke sorgfältig entwickelt, wie zum Beispiel erweiterte TDNNs (Extended TDNN, E-TDNN), faktorisierte TDNNs (Factorized TDNN, F-TDNN) und dicht verbundene TDNNs (Densely Connected TDNN, D-TDNN). In dieser Arbeit versuchen wir, optimale Architekturen aus einem Suchraum basierend auf TDNNs durch die Verwendung von neuronalen Architektursuchverfahren (Neural Architecture Search, NAS) zu identifizieren, wobei das Verfahren SpeechNAS genannt wird. Indem wir uns auf jüngste Fortschritte im Bereich der Sprechererkennung stützen, wie z.B. Hochordnungs-Statistik-Pooling, Multibranch-Mechanismus, D-TDNN und den Winkeladditiven Margensoftmax-Verlust (Angular Additive Margin Softmax Loss, AAM) mit minimaler hypersphärischer Energie (Minimum Hyper-Spherical Energy, MHE), entdeckt SpeechNAS automatisch fünf Netzwerkarchitekturen – von SpeechNAS-1 bis SpeechNAS-5 – mit unterschiedlichen Anzahlen von Parametern und GFLOPs auf dem groß angelegten textunabhängigen Sprechererkennungsdatensatz VoxCeleb1. Unser bestes abgeleitetes neuronales Netzwerk erreicht einen Gleichfehler-Rate (Equal Error Rate, EER) von 1,02 % im Standardtestset von VoxCeleb1, was deutlich besser ist als bisherige state-of-the-art-Ansätze basierend auf TDNNs. Der Quellcode und die trainierten Gewichte sind unter https://github.com/wentaozhu/speechnas.git verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp