HyperAIHyperAI
vor 2 Monaten

GPU-beschleunigte geleitete Quellentrennung für die Transkription von Meetings

Raj, Desh ; Povey, Daniel ; Khudanpur, Sanjeev
GPU-beschleunigte geleitete Quellentrennung für die Transkription von Meetings
Abstract

Die geleitete Quellentrennung (GSS) ist eine Methode zur Extraktion des Ziel-Sprechers, die auf vorberechneten Sprecheraktivitäten und blinder Quellentrennung basiert, um die Front-End-Verbesserung überlappender Sprachsignale durchzuführen. Sie wurde erstmals während der CHiME-5 Challenge vorgeschlagen und brachte signifikante Verbesserungen im Vergleich zur Baseline-Methode des Delay-and-Sum-Beamformings. Trotz ihrer Stärken hat die Methode jedoch wegen ihrer hohen Rechenzeit bislang nur begrenzt in den Transkriptionsbenchmarks für Meetings Anwendung gefunden. In dieser Arbeit beschreiben wir unsere verbesserte Implementierung von GSS, die die Leistungsfähigkeit moderner GPU-basierter Pipelines nutzt, einschließlich der gebatchten Verarbeitung von Frequenzen und Segmenten, um eine 300-fache Beschleunigung gegenüber CPU-basierter Inferenz zu erreichen. Die verbesserte Inferenzzeit ermöglicht es uns, detaillierte Abstraktionsstudien über mehrere Parameter des GSS-Algorithmus durchzuführen – wie zum Beispiel Kontextdauer, Anzahl der Kanäle und Rauschklassifizierung. Wir stellen reproduzierbare End-to-End-Pipelines für die Sprecherattributierten Transkriptionen bekannter Meeting-Benchmarks bereit: LibriCSS, AMI und AliMeeting. Unser Code und unsere Rezepte sind öffentlich verfügbar: https://github.com/desh2608/gss.