Kontinuierliche Sprachtrennung mit Conformer

Die kontinuierliche Sprachtrennung spielt eine entscheidende Rolle bei komplexen sprachbasierten Aufgaben wie der Transkription von Gesprächen. Das Trennungsmodell extrahiert ein einzelnes Sprecher-Signal aus einem gemischten Sprachsignal. In diesem Artikel setzen wir Transformer und Conformer anstelle rekurrenter neuronalen Netze im Trennsystem ein, da wir der Ansicht sind, dass die Erfassung globaler Informationen mittels selbst-Attention-basierter Methoden für die Sprachtrennung von zentraler Bedeutung ist. Auf dem LibriCSS-Datensatz erreicht das Conformer-Trennungsmodell Zustand-des-Kunst-Ergebnisse: Bei der Evaluierung pro Äußerung wird eine relative Reduktion des Wortfehlerrates (WER) um 23,5 % gegenüber dem bidirektionalen LSTM (BLSTM) erzielt, während bei der kontinuierlichen Evaluierung eine Reduktion um 15,4 % erreicht wird.