HyperAIHyperAI
il y a 2 mois

UniCon : Réseau de Contexte Unifié pour une Détection Robuste du Locuteur Actif

Zhang, Yuanhang ; Liang, Susan ; Yang, Shuang ; Liu, Xiao ; Wu, Zhongqin ; Shan, Shiguang ; Chen, Xilin
UniCon : Réseau de Contexte Unifié pour une Détection Robuste du Locuteur Actif
Résumé

Nous présentons un nouveau cadre efficace, le Réseau de Contexte Unifié (UniCon), pour une détection robuste du locuteur actif (ASD). Les méthodes traditionnelles d'ASD opèrent généralement sur chaque piste faciale pré-coupée des candidats séparément et ne prennent pas suffisamment en compte les relations entre les candidats. Cela peut potentiellement limiter les performances, en particulier dans des scénarios difficiles avec des visages à faible résolution, plusieurs candidats, etc. Notre solution est un cadre novateur et unifié qui se concentre sur la modélisation conjointe de plusieurs types d'informations contextuelles : le contexte spatial pour indiquer la position et l'échelle de chaque visage de candidat, le contexte relationnel pour capturer les relations visuelles entre les candidats et contraster leurs affinités audiovisuelles, ainsi que le contexte temporel pour agréger des informations à long terme et atténuer les incertitudes locales. Sur la base de ces informations, notre modèle optimise tous les candidats dans un processus unifié pour une ASD robuste et fiable. Une étude d'ablation approfondie est réalisée sur plusieurs benchmarks d'ASD difficiles sous différentes configurations. En particulier, notre méthode dépasse l'état de l'art avec une marge importante d'environ 15% de précision moyenne (mAP) absolue sur deux sous-ensembles difficiles : l'un avec trois locuteurs candidats, et l'autre avec des visages plus petits que 64 pixels. Ensemble, notre UniCon atteint 92,0% de mAP sur l'ensemble de validation AVA-ActiveSpeaker, dépassant 90% pour la première fois sur ce jeu de données difficile au moment de la soumission. Site web du projet : https://unicon-asd.github.io/.

UniCon : Réseau de Contexte Unifié pour une Détection Robuste du Locuteur Actif | Articles de recherche récents | HyperAI