TOLD : Un cadre innovant en deux étapes prenant en compte les chevauchements pour la diarisation des locuteurs

Récemment, la diarisation neurale end-to-end (EEND) a été introduite et a obtenu des résultats prometteurs dans les scénarios à chevauchement de locuteurs. Dans EEND, la diarisation des locuteurs est formulée comme un problème de prédiction multi-étiquettes, où les activités des locuteurs sont estimées indépendamment, sans prise en compte adéquate de leurs dépendances. Pour surmonter ces limitations, nous introduisons une encodage par ensemble des parties afin de reformuler la diarisation des locuteurs comme un problème de classification mono-étiquette, et proposons un modèle EEND-OLA (EEND-Overlap-Aware) capable de modéliser explicitement les chevauchements et les dépendances entre locuteurs. Inspirés du succès des systèmes hybrides à deux étapes, nous proposons également un cadre novateur de diarisation à chevauchement conscient, appelé TOLD (Two-stage OverLap-aware Diarization), en intégrant un modèle post-traitement conscient des chevauchements (SOAP) qui affine itérativement les résultats de diarisation fournis par EEND-OLA. Les résultats expérimentaux montrent qu’en comparaison avec EEND original, le modèle EEND-OLA obtient une amélioration relative de 14,39 % en termes de taux d’erreur de diarisation (DER), tandis que l’utilisation de SOAP apporte une amélioration supplémentaire de 19,33 %. En conséquence, notre méthode TOLD atteint un DER de 10,14 % sur le jeu de données CALLHOME, constituant, à notre connaissance, un nouveau record d’état de l’art sur cette référence.