vor 8 Tagen

TitaNet: Neuronales Modell zur Sprecherrepräsentation mit 1D depth-wise separable Convolutionen und globalem Kontext

Nithin Rao Koluguri, Taejin Park, Boris Ginsburg

Abstract

In diesem Artikel stellen wir TitaNet, eine neuartige neuronale Netzarchitektur zur Extraktion von Sprecherrepräsentationen, vor. Wir nutzen 1D-Depthwise-separable-Convolutionen mit Squeeze-and-Excitation (SE)-Schichten, die kontextuelle Informationen über den gesamten Eingabebereich berücksichtigen, gefolgt von einer kanalbasierten Statistik-Pooling-Schicht mit Aufmerksamkeit, um Sprachausdrücke variabler Länge auf eine feste Embedding-Länge (t-Vektor) abzubilden. TitaNet ist eine skalierbare Architektur und erreicht state-of-the-art-Leistungen bei der Sprecheridentifikation mit einem Equal Error Rate (EER) von 0,68 % auf dem VoxCeleb1-Trial-Set sowie bei Sprecherdiarisation mit einem Diarisation Error Rate (DER) von 1,73 % auf AMI-MixHeadset, 1,99 % auf AMI-Lapel und 1,11 % auf CH109. Darüber hinaus untersuchen wir verschiedene Größen von TitaNet und präsentieren ein leichtgewichtiges Modell, TitaNet-S, mit lediglich 6 Mio. Parametern, das nahezu state-of-the-art-Ergebnisse bei Diarisation-Aufgaben erzielt.