HyperAIHyperAI

Command Palette

Search for a command to run...

TitaNet: Neuronales Modell zur Sprecherrepräsentation mit 1D depth-wise separable Convolutionen und globalem Kontext

Nithin Rao Koluguri Taejin Park Boris Ginsburg

Zusammenfassung

In diesem Artikel stellen wir TitaNet, eine neuartige neuronale Netzarchitektur zur Extraktion von Sprecherrepräsentationen, vor. Wir nutzen 1D-Depthwise-separable-Convolutionen mit Squeeze-and-Excitation (SE)-Schichten, die kontextuelle Informationen über den gesamten Eingabebereich berücksichtigen, gefolgt von einer kanalbasierten Statistik-Pooling-Schicht mit Aufmerksamkeit, um Sprachausdrücke variabler Länge auf eine feste Embedding-Länge (t-Vektor) abzubilden. TitaNet ist eine skalierbare Architektur und erreicht state-of-the-art-Leistungen bei der Sprecheridentifikation mit einem Equal Error Rate (EER) von 0,68 % auf dem VoxCeleb1-Trial-Set sowie bei Sprecherdiarisation mit einem Diarisation Error Rate (DER) von 1,73 % auf AMI-MixHeadset, 1,99 % auf AMI-Lapel und 1,11 % auf CH109. Darüber hinaus untersuchen wir verschiedene Größen von TitaNet und präsentieren ein leichtgewichtiges Modell, TitaNet-S, mit lediglich 6 Mio. Parametern, das nahezu state-of-the-art-Ergebnisse bei Diarisation-Aufgaben erzielt.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp