HyperAIHyperAI
il y a 9 jours

pyannote.audio : blocs fonctionnels neuronaux pour la diarisation des locuteurs

Hervé Bredin, Ruiqing Yin, Juan Manuel Coria, Gregory Gelly, Pavel Korshunov, Marvin Lavechin, Diego Fustes, Hadrien Titeux, Wassim Bouaziz, Marie-Philippe Gill
pyannote.audio : blocs fonctionnels neuronaux pour la diarisation des locuteurs
Résumé

Nous présentons pyannote.audio, un outil open source écrit en Python dédié à la diarisation des locuteurs. Basé sur le cadre d'apprentissage automatique PyTorch, il offre une série de composants neuronaux entraînables en bout à bout, pouvant être combinés et optimisés conjointement afin de construire des chaînes de traitement de diarisation des locuteurs. pyannote.audio inclut également des modèles pré-entraînés couvrant un large éventail de domaines pour la détection d'activité vocale, la détection des changements de locuteur, la détection des interactions vocales superposées et les embeddings de locuteurs, atteignant des performances de pointe pour la plupart de ces tâches.

pyannote.audio : blocs fonctionnels neuronaux pour la diarisation des locuteurs | Articles de recherche récents | HyperAI