HyperAIHyperAI

Command Palette

Search for a command to run...

Détection de l'orateur actif de bout en bout

Juan León Alcázar Moritz Cordes Chen Zhao Bernard Ghanem

Résumé

Les récentes avancées dans le problème de détection du locuteur actif (Active Speaker Detection, ASD) reposent sur un processus en deux étapes : l'extraction de caractéristiques et l'agrégation de contexte spatio-temporel. Dans cet article, nous proposons un flux de travail ASD intégré où l'apprentissage des caractéristiques et les prédictions contextuelles sont appris conjointement. Notre réseau entièrement entraînable apprend simultanément des plongements multimodaux et agrège le contexte spatio-temporel. Cela permet d'obtenir des représentations de caractéristiques plus adaptées et une meilleure performance dans la tâche ASD. Nous introduisons également des blocs de réseau neuronal graphique entrelacés (interleaved Graph Neural Network, iGNN), qui divisent la propagation des messages selon les principales sources de contexte dans le problème ASD. Les expériences montrent que les caractéristiques agrégées provenant des blocs iGNN sont plus adaptées à l'ASD, conduisant à des performances de pointe. Enfin, nous concevons une stratégie faiblement supervisée, qui démontre que le problème ASD peut également être abordé en utilisant des données audiovisuelles tout en s'appuyant uniquement sur des annotations audio. Nous atteignons cela en modélisant la relation directe entre le signal audio et les sources sonores possibles (locuteurs), ainsi qu'en introduisant une perte contrastive. Toutes les ressources de ce projet seront mises à disposition sur : https://github.com/fuankarion/end-to-end-asd.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp