HyperAIHyperAI
vor 9 Tagen

End-to-End Neural Speaker Diarization mit permutationsfreien Zielfunktionen

Yusuke Fujita, Naoyuki Kanda, Shota Horiguchi, Kenji Nagamatsu, Shinji Watanabe
End-to-End Neural Speaker Diarization mit permutationsfreien Zielfunktionen
Abstract

In diesem Paper stellen wir eine neuartige, end-to-end aufbauende, neuronalen Netzwerken basierende Methode zur Sprecherdiarisation vor. Im Gegensatz zu den meisten bestehenden Ansätzen verfügt unsere vorgeschlagene Methode nicht über getrennte Module zur Extraktion und Clustering von Sprecherrepräsentationen. Stattdessen verfügt unser Modell über ein einziges neuronales Netzwerk, das direkt die Sprecherdiarisationsergebnisse ausgibt. Um ein solches Modell zu realisieren, formulieren wir das Problem der Sprecherdiarisation als ein Mehrfach-Klassifizierungsproblem und führen eine permutationsfreie Zielfunktion ein, die diarisationsspezifische Fehler direkt minimiert, ohne unter dem Problem der Sprecherlabel-Permutation zu leiden. Neben der einfachen end-to-end-Architektur bietet die vorgeschlagene Methode zudem den Vorteil, Überlappungssprache während des Trainings und der Inferenz explizit berücksichtigen zu können. Aufgrund dieses Vorteils kann unser Modell problemlos mit real aufgenommenen, mehrsprachigen Gesprächen trainiert bzw. angepasst werden, indem lediglich die entsprechenden Labels für mehrsprachige Segmentabschnitte bereitgestellt werden. Wir haben die vorgeschlagene Methode an simulierten Sprachmischungen evaluiert. Das vorgeschlagene Verfahren erreichte eine Diarisation Error Rate (DER) von 12,28 %, während ein herkömmliches, auf Clustering basierendes System eine DER von 28,77 % erzielte. Zudem zeigte die Domänenanpassung mit real aufgenommenen Sprachaufnahmen eine relative Verbesserung um 25,6 % auf dem CALLHOME-Datensatz. Der Quellcode ist öffentlich über https://github.com/hitachi-speech/EEND verfügbar.

End-to-End Neural Speaker Diarization mit permutationsfreien Zielfunktionen | Neueste Forschungsarbeiten | HyperAI