End-to-End Neural Speaker Diarization mit permutationsfreien Zielfunktionen

In diesem Paper stellen wir eine neuartige, end-to-end aufbauende, neuronalen Netzwerken basierende Methode zur Sprecherdiarisation vor. Im Gegensatz zu den meisten bestehenden Ansätzen verfügt unsere vorgeschlagene Methode nicht über getrennte Module zur Extraktion und Clustering von Sprecherrepräsentationen. Stattdessen verfügt unser Modell über ein einziges neuronales Netzwerk, das direkt die Sprecherdiarisationsergebnisse ausgibt. Um ein solches Modell zu realisieren, formulieren wir das Problem der Sprecherdiarisation als ein Mehrfach-Klassifizierungsproblem und führen eine permutationsfreie Zielfunktion ein, die diarisationsspezifische Fehler direkt minimiert, ohne unter dem Problem der Sprecherlabel-Permutation zu leiden. Neben der einfachen end-to-end-Architektur bietet die vorgeschlagene Methode zudem den Vorteil, Überlappungssprache während des Trainings und der Inferenz explizit berücksichtigen zu können. Aufgrund dieses Vorteils kann unser Modell problemlos mit real aufgenommenen, mehrsprachigen Gesprächen trainiert bzw. angepasst werden, indem lediglich die entsprechenden Labels für mehrsprachige Segmentabschnitte bereitgestellt werden. Wir haben die vorgeschlagene Methode an simulierten Sprachmischungen evaluiert. Das vorgeschlagene Verfahren erreichte eine Diarisation Error Rate (DER) von 12,28 %, während ein herkömmliches, auf Clustering basierendes System eine DER von 28,77 % erzielte. Zudem zeigte die Domänenanpassung mit real aufgenommenen Sprachaufnahmen eine relative Verbesserung um 25,6 % auf dem CALLHOME-Datensatz. Der Quellcode ist öffentlich über https://github.com/hitachi-speech/EEND verfügbar.