HyperAIHyperAI
il y a 2 mois

Comment Concevoir une Architecture en Trois Étapes pour la Détection Audiovisuelle d'un Locuteur Actif dans des Conditions Réelles

Köpüklü, Okan ; Taseska, Maja ; Rigoll, Gerhard
Comment Concevoir une Architecture en Trois Étapes pour la Détection Audiovisuelle d'un Locuteur Actif dans des Conditions Réelles
Résumé

La détection réussie d'un locuteur actif nécessite un pipeline en trois étapes : (i) l'encodage audiovisuel de tous les locuteurs dans la séquence vidéo, (ii) la modélisation des relations inter-locuteurs entre un locuteur de référence et les locuteurs de fond dans chaque image, et (iii) la modélisation temporelle du locuteur de référence. Chaque étape de ce pipeline joue un rôle crucial pour la performance finale de l'architecture créée. Sur la base d'une série d'expériences contrôlées, cette étude présente plusieurs lignes directrices pratiques pour la détection audiovisuelle d'un locuteur actif. Parallèlement, nous présentons une nouvelle architecture appelée ASDNet, qui atteint un nouveau niveau d'excellence sur le jeu de données AVA-ActiveSpeaker avec un mAP de 93,5 %, surpassant largement le deuxième meilleur modèle par une marge de 4,7 %. Notre code et nos modèles pré-entraînés sont disponibles au public.

Comment Concevoir une Architecture en Trois Étapes pour la Détection Audiovisuelle d'un Locuteur Actif dans des Conditions Réelles | Articles de recherche récents | HyperAI