HyperAIHyperAI
il y a 8 jours

Reconnaissance d’oral par intégration d’embeddings de locuteur : un cadre efficace pour la diarisation de paroles superposées dans des scénarios de réunion

Zhihao Du, Shiliang Zhang, Siqi Zheng, Zhijie Yan
Reconnaissance d’oral par intégration d’embeddings de locuteur : un cadre efficace pour la diarisation de paroles superposées dans des scénarios de réunion
Résumé

La diarisation de parole chevauchante a traditionnellement été traitée comme un problème de classification multi-étiquettes. Dans cet article, nous reformulons cette tâche en un problème de prédiction à une seule étiquette en codant plusieurs étiquettes binaires en une seule étiquette via l’ensemble des parties (power set), qui représente les combinaisons possibles des locuteurs cibles. Cette formulation présente deux avantages. Premièrement, les chevauchements entre les locuteurs cibles sont explicitement modélisés. Deuxièmement, la sélection de seuil devient inutile. Grâce à cette formulation, nous proposons le cadre SEND (Speaker Embedding-aware Neural Diarization), dans lequel un encodeur vocal, un encodeur de locuteur, deux calculateurs de similarité et un réseau de post-traitement sont optimisés conjointement afin de prédire les étiquettes codées en fonction des similarités entre les caractéristiques vocales et les embeddings de locuteur. Les résultats expérimentaux montrent que SEND présente un processus d’apprentissage stable et peut être entraîné sur des données fortement chevauchantes sans initialisation supplémentaire. Plus important encore, notre méthode atteint des performances de pointe dans des scénarios réels de réunions, avec un nombre réduit de paramètres modèles et une complexité computationnelle plus faible.

Reconnaissance d’oral par intégration d’embeddings de locuteur : un cadre efficace pour la diarisation de paroles superposées dans des scénarios de réunion | Articles de recherche récents | HyperAI