HyperAIHyperAI

Command Palette

Search for a command to run...

Séparation guidée accélérée par GPU pour la transcription de réunions

Desh Raj Daniel Povey Sanjeev Khudanpur

Résumé

La séparation de sources guidée (GSS) est une méthode d'extraction de locuteur cible qui s'appuie sur des activités de locuteurs pré-calculées et une séparation aveugle de sources pour améliorer les signaux vocaux superposés en amont. Elle a été proposée pour la première fois lors du défi CHiME-5 et a apporté des améliorations significatives par rapport à la base de référence du beamforming par retard et sommation. Cependant, malgré ses avantages, cette méthode n'a connu qu'une adoption limitée pour les benchmarks de transcription de réunions, principalement en raison de son temps de calcul élevé. Dans cet article, nous décrivons notre implémentation améliorée de GSS qui tire parti des capacités des pipelines modernes basés sur GPU, notamment le traitement batché des fréquences et des segments, pour offrir un accélération 300 fois supérieure à l'inférence basée sur CPU. Le temps d'inférence amélioré nous permet d'effectuer des études d'ablation détaillées sur plusieurs paramètres de l'algorithme GSS, tels que la durée du contexte, le nombre de canaux et la classe de bruit, entre autres. Nous fournissons des pipelines reproductibles d'un bout à l'autre pour la transcription attribuée aux locuteurs des benchmarks populaires de réunions : LibriCSS, AMI et AliMeeting. Notre code et nos recettes sont librement accessibles : https://github.com/desh2608/gss.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp