HyperAIHyperAI
il y a 2 mois

Séparation guidée accélérée par GPU pour la transcription de réunions

Raj, Desh ; Povey, Daniel ; Khudanpur, Sanjeev
Séparation guidée accélérée par GPU pour la transcription de réunions
Résumé

La séparation de sources guidée (GSS) est une méthode d'extraction de locuteur cible qui s'appuie sur des activités de locuteurs pré-calculées et une séparation aveugle de sources pour améliorer les signaux vocaux superposés en amont. Elle a été proposée pour la première fois lors du défi CHiME-5 et a apporté des améliorations significatives par rapport à la base de référence du beamforming par retard et sommation. Cependant, malgré ses avantages, cette méthode n'a connu qu'une adoption limitée pour les benchmarks de transcription de réunions, principalement en raison de son temps de calcul élevé. Dans cet article, nous décrivons notre implémentation améliorée de GSS qui tire parti des capacités des pipelines modernes basés sur GPU, notamment le traitement batché des fréquences et des segments, pour offrir un accélération 300 fois supérieure à l'inférence basée sur CPU. Le temps d'inférence amélioré nous permet d'effectuer des études d'ablation détaillées sur plusieurs paramètres de l'algorithme GSS, tels que la durée du contexte, le nombre de canaux et la classe de bruit, entre autres. Nous fournissons des pipelines reproductibles d'un bout à l'autre pour la transcription attribuée aux locuteurs des benchmarks populaires de réunions : LibriCSS, AMI et AliMeeting. Notre code et nos recettes sont librement accessibles : https://github.com/desh2608/gss.