HyperAIHyperAI
il y a 2 mois

Détection de l'orateur actif comme une optimisation multi-objectif avec fusion multimodale basée sur l'incertitude

Pouthier, Baptiste ; Pilati, Laurent ; Gudupudi, Leela K. ; Bouveyron, Charles ; Precioso, Frederic
Détection de l'orateur actif comme une optimisation multi-objectif avec fusion multimodale basée sur l'incertitude
Résumé

Il est maintenant bien établi par diverses études qu'il existe un avantage significatif à combiner les données vidéo et audio pour détecter les locuteurs actifs. Cependant, chacune des modalités peut potentiellement induire en erreur la fusion audiovisuelle en apportant des informations non fiables ou trompeuses. Cet article présente la détection des locuteurs actifs comme un problème d'apprentissage multi-objectif, visant à tirer le meilleur parti de chaque modalité grâce à un nouveau schéma de fusion multimodale basé sur l'auto-attention et l'incertitude. Les résultats obtenus montrent que l'architecture d'apprentissage multi-objectif proposée surpasse les approches traditionnelles en améliorant à la fois les scores mAP et AUC. Nous démontrons également que notre stratégie de fusion dépasse, dans la détection des locuteurs actifs, d'autres méthodes de fusion modale rapportées dans divers domaines. Enfin, nous montrons que la méthode proposée améliore considérablement l'état de l'art sur le jeu de données AVA-ActiveSpeaker.