TitaNet: Neuronales Modell zur Sprecherrepräsentation mit 1D depth-wise separable Convolutionen und globalem Kontext

In diesem Artikel stellen wir TitaNet, eine neuartige neuronale Netzarchitektur zur Extraktion von Sprecherrepräsentationen, vor. Wir nutzen 1D-Depthwise-separable-Convolutionen mit Squeeze-and-Excitation (SE)-Schichten, die kontextuelle Informationen über den gesamten Eingabebereich berücksichtigen, gefolgt von einer kanalbasierten Statistik-Pooling-Schicht mit Aufmerksamkeit, um Sprachausdrücke variabler Länge auf eine feste Embedding-Länge (t-Vektor) abzubilden. TitaNet ist eine skalierbare Architektur und erreicht state-of-the-art-Leistungen bei der Sprecheridentifikation mit einem Equal Error Rate (EER) von 0,68 % auf dem VoxCeleb1-Trial-Set sowie bei Sprecherdiarisation mit einem Diarisation Error Rate (DER) von 1,73 % auf AMI-MixHeadset, 1,99 % auf AMI-Lapel und 1,11 % auf CH109. Darüber hinaus untersuchen wir verschiedene Größen von TitaNet und präsentieren ein leichtgewichtiges Modell, TitaNet-S, mit lediglich 6 Mio. Parametern, das nahezu state-of-the-art-Ergebnisse bei Diarisation-Aufgaben erzielt.