HyperAIHyperAI

Command Palette

Search for a command to run...

Supervisierte Online-Diarisierung mit Sample-Mean-Loss für multidomänendaten

Enrico Fini Alessio Brutti

Zusammenfassung

Kürzlich wurde ein vollständig überwachter Ansatz zur Sprecherdiarisation vorgestellt (UIS-RNN), bei dem Sprecher mithilfe mehrerer Instanzen eines parametergeteilten rekurrenten neuronalen Netzes modelliert werden. In diesem Artikel stellen wir qualitative Modifikationen am Modell vor, die die Lerneffizienz erheblich verbessern und die Gesamtleistung der Diarisation steigern. Insbesondere führen wir eine neuartige Verlustfunktion ein, die wir „Sample Mean Loss“ nennen, und präsentieren eine verbesserte Modellierung des Sprecherwechsels durch die Einführung einer analytischen Formel zur Berechnung der Wahrscheinlichkeit, dass ein neuer Sprecher in die Konversation einsteigt. Zudem zeigen wir, dass unser Modell auf festen Sprachsegmenten trainiert werden kann, wodurch der Bedarf nach Sprecherwechselinformationen während der Inferenz entfällt. Unter Verwendung von x-Vektoren als Eingabemerkmale evaluieren wir unseren Ansatz auf dem multidomänen Datensatz, der im DIHARD II Challenge verwendet wurde: Unser Online-Verfahren übertrifft die ursprüngliche UIS-RNN-Implementierung und erreicht eine Leistung, die einer Offline-Agglomerationsclustering-Baselinemethode mit PLDA-Scoring vergleichbar ist.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp