vor 9 Tagen
pyannote.audio: neuronale Bausteine für die Speaker-Diarisierung
Hervé Bredin, Ruiqing Yin, Juan Manuel Coria, Gregory Gelly, Pavel Korshunov, Marvin Lavechin, Diego Fustes, Hadrien Titeux, Wassim Bouaziz, Marie-Philippe Gill

Abstract
Wir stellen pyannote.audio vor, ein quelloffenes Werkzeug in Python für die Sprecherdiarisation. Aufbauend auf dem maschinellen Lernframework PyTorch bietet es eine Reihe trainierbarer, end-to-end neuronalen Bausteine, die kombiniert und gemeinsam optimiert werden können, um Sprecherdiarisationssysteme zu konstruieren. pyannote.audio verfügt außerdem über vortrainierte Modelle, die eine breite Palette an Anwendungsbereichen abdecken, darunter Sprachaktivitätserkennung, Sprecherwechselerkennung, Erkennung überlagerter Sprache sowie Sprecher-Embeddings – wobei für die meisten dieser Aufgaben ein state-of-the-art Leistungslevel erreicht wird.