il y a 9 jours

pyannote.audio : blocs fonctionnels neuronaux pour la diarisation des locuteurs

Hervé Bredin, Ruiqing Yin, Juan Manuel Coria, Gregory Gelly, Pavel Korshunov, Marvin Lavechin, Diego Fustes, Hadrien Titeux, Wassim Bouaziz, Marie-Philippe Gill

Voir les détails de l'article

pyannote.audio : blocs fonctionnels neuronaux pour la diarisation des locuteurs

Résumé

Nous présentons pyannote.audio, un outil open source écrit en Python dédié à la diarisation des locuteurs. Basé sur le cadre d'apprentissage automatique PyTorch, il offre une série de composants neuronaux entraînables en bout à bout, pouvant être combinés et optimisés conjointement afin de construire des chaînes de traitement de diarisation des locuteurs. pyannote.audio inclut également des modèles pré-entraînés couvrant un large éventail de domaines pour la détection d'activité vocale, la détection des changements de locuteur, la détection des interactions vocales superposées et les embeddings de locuteurs, atteignant des performances de pointe pour la plupart de ces tâches.