Supervisierte Online-Diarisierung mit Sample-Mean-Loss für multidomänendaten

Kürzlich wurde ein vollständig überwachter Ansatz zur Sprecherdiarisation vorgestellt (UIS-RNN), bei dem Sprecher mithilfe mehrerer Instanzen eines parametergeteilten rekurrenten neuronalen Netzes modelliert werden. In diesem Artikel stellen wir qualitative Modifikationen am Modell vor, die die Lerneffizienz erheblich verbessern und die Gesamtleistung der Diarisation steigern. Insbesondere führen wir eine neuartige Verlustfunktion ein, die wir „Sample Mean Loss“ nennen, und präsentieren eine verbesserte Modellierung des Sprecherwechsels durch die Einführung einer analytischen Formel zur Berechnung der Wahrscheinlichkeit, dass ein neuer Sprecher in die Konversation einsteigt. Zudem zeigen wir, dass unser Modell auf festen Sprachsegmenten trainiert werden kann, wodurch der Bedarf nach Sprecherwechselinformationen während der Inferenz entfällt. Unter Verwendung von x-Vektoren als Eingabemerkmale evaluieren wir unseren Ansatz auf dem multidomänen Datensatz, der im DIHARD II Challenge verwendet wurde: Unser Online-Verfahren übertrifft die ursprüngliche UIS-RNN-Implementierung und erreicht eine Leistung, die einer Offline-Agglomerationsclustering-Baselinemethode mit PLDA-Scoring vergleichbar ist.