HyperAIHyperAI

Command Palette

Search for a command to run...

MAAS : Assignation Multi-modale pour la Détection d'Orateur Actif

Juan León Alcázar Fabian Caba Heilbron Ali K. Thabet Bernard Ghanem

Résumé

La détection de l'orateur actif nécessite une intégration solide des indices multimodaux.Bien que les modalités individuelles puissent approximer une solution, des prédictions précises ne peuvent être réalisées qu'en fusionnant explicitement les caractéristiques audio et visuelles et en modélisant leur progression temporelle. Malgré sa nature intrinsèquement multimodale, les méthodes actuelles se concentrent encore sur la modélisation et la fusion de caractéristiques audiovisuelles à court terme pour chaque orateur, souvent au niveau de l'image. Dans cet article, nous présentons une nouvelle approche de détection de l'orateur actif qui aborde directement la nature multimodale du problème et offre une stratégie simple où les caractéristiques visuelles indépendantes des orateurs potentiels dans la scène sont attribuées à un événement vocal détecté précédemment. Nos expériences montrent qu'une petite structure de données graphiques construite à partir d'une seule image permet d'approximer le problème d'attribution audio-visuelle instantanée. De plus, l'extension temporelle de ce graphe initial atteint un nouveau niveau d'état de l'art sur le jeu de données AVA-ActiveSpeaker avec un mAP de 88,8 %.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp