HyperAIHyperAI

Command Palette

Search for a command to run...

TDFNet : un modèle efficace de séparation vocale audio-visuelle avec fusion haut-bas

Samuel Pegg Kai Li Xiaolin Hu

Résumé

La séparation de parole audiovisuelle a connu un intérêt croissant ces dernières années en raison de ses nombreuses applications potentielles dans des domaines tels que la reconnaissance vocale, la diarisation, l’analyse de scènes et les technologies d’assistance. Concevoir un réseau léger pour la séparation de parole audiovisuelle est essentiel pour les applications à faible latence, mais les méthodes existantes nécessitent souvent des coûts computationnels élevés et un grand nombre de paramètres pour atteindre de meilleures performances. Dans cet article, nous proposons un modèle de séparation de parole audiovisuelle appelé Top-Down-Fusion Net (TDFNet), un modèle de pointe (SOTA) pour la séparation de parole audiovisuelle, qui s’appuie sur l’architecture de TDANet, une méthode de séparation de parole basée uniquement sur le canal audio. TDANet sert de fondation architecturale pour les réseaux auditifs et visuels au sein de TDFNet, offrant un modèle efficace avec un nombre réduit de paramètres. Sur le jeu de données LRS2-2Mix, TDFNet améliore les performances de jusqu’à 10 % sur tous les indicateurs de performance par rapport à la méthode SOTA précédente, CTCNet. De façon remarquable, ces résultats sont obtenus avec un nombre de paramètres inférieur et seulement 28 % des opérations de multiplication-accumulation (MACs) nécessaires par CTCNet. En somme, notre approche constitue une solution hautement efficace et performante face aux défis de la séparation de parole dans le domaine audiovisuel, marquant une avancée significative dans l’exploitation optimale des informations visuelles.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
TDFNet : un modèle efficace de séparation vocale audio-visuelle avec fusion haut-bas | Articles | HyperAI