TOLD: Ein neuartiger zweistufiger, Überlappungsbewusster Rahmen für Sprecherdiarisation

Kürzlich wurde die end-to-end neuronale Diarization (EEND) eingeführt und erzielte vielversprechende Ergebnisse in Szenarien mit sprecherüberlagernden Signalen. Bei EEND wird die Sprecherdiarization als ein Multi-Label-Vorhersageproblem formuliert, wobei die Sprecheraktivitäten unabhängig geschätzt werden und deren Abhängigkeiten nicht ausreichend berücksichtigt werden. Um diese Nachteile zu überwinden, verwenden wir die Power-Set-Codierung, um die Sprecherdiarization als ein Single-Label-Klassifikationsproblem neu zu formulieren, und schlagen das overlap-aware EEND-Modell (EEND-OLA) vor, bei dem Sprecherüberlagerungen und deren Abhängigkeiten explizit modelliert werden können. Inspiriert durch den Erfolg zweistufiger hybrider Systeme, schlagen wir weiterhin einen neuen zweistufigen OverLap-aware-Diarization-Framework (TOLD) vor, der ein überlagerungssensitives Nachverarbeitungsmodell (SOAP) einbindet, um die Diarizationsergebnisse von EEND-OLA iterativ zu verfeinern. Experimentelle Ergebnisse zeigen, dass im Vergleich zum ursprünglichen EEND das vorgeschlagene EEND-OLA eine relative Verbesserung der Diarization Error Rate (DER) um 14,39 % erreicht, während die Nutzung von SOAP eine zusätzliche relative Verbesserung um 19,33 % liefert. Insgesamt erzielt unser Ansatz TOLD auf dem CALLHOME-Datensatz eine DER von 10,14 %, was gemäß unserer Kenntnis ein neuer Stand der Technik auf diesem Benchmark darstellt.