HyperAIHyperAI

Command Palette

Search for a command to run...

Détection de l'orateur actif comme une optimisation multi-objectif avec fusion multimodale basée sur l'incertitude

Baptiste Pouthier Laurent Pilati Leela K. Gudupudi Charles Bouveyron Frederic Precioso

Résumé

Il est maintenant bien établi par diverses études qu'il existe un avantage significatif à combiner les données vidéo et audio pour détecter les locuteurs actifs. Cependant, chacune des modalités peut potentiellement induire en erreur la fusion audiovisuelle en apportant des informations non fiables ou trompeuses. Cet article présente la détection des locuteurs actifs comme un problème d'apprentissage multi-objectif, visant à tirer le meilleur parti de chaque modalité grâce à un nouveau schéma de fusion multimodale basé sur l'auto-attention et l'incertitude. Les résultats obtenus montrent que l'architecture d'apprentissage multi-objectif proposée surpasse les approches traditionnelles en améliorant à la fois les scores mAP et AUC. Nous démontrons également que notre stratégie de fusion dépasse, dans la détection des locuteurs actifs, d'autres méthodes de fusion modale rapportées dans divers domaines. Enfin, nous montrons que la méthode proposée améliore considérablement l'état de l'art sur le jeu de données AVA-ActiveSpeaker.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Détection de l'orateur actif comme une optimisation multi-objectif avec fusion multimodale basée sur l'incertitude | Articles | HyperAI