HyperAIHyperAI
il y a 11 jours

LASER : Détection de locuteur assistée par des points de repère labiaux pour une robustesse améliorée

Le Thien Phuc Nguyen, Zhuoran Yu, Yong Jae Lee
LASER : Détection de locuteur assistée par des points de repère labiaux pour une robustesse améliorée
Résumé

La détection de locuteur actif (ASD) vise à identifier les individus qui parlent dans des scènes visuelles complexes. Bien que les humains puissent facilement détecter la parole en associant les mouvements des lèvres à l’audio, les modèles actuels d’ASD peinent à établir cette correspondance, souvent en classant incorrectement des instances non parlantes lorsque l’audio et les mouvements labiaux sont désynchronisés. Pour remédier à cette limitation, nous proposons LASER (Lip landmark Assisted Speaker dEtection for Robustness), un modèle qui intègre explicitement les mouvements des lèvres grâce à l’utilisation de points de repère labiaux pendant l’entraînement. Contrairement aux modèles qui se contentent d’images faciales, LASER extrait, à partir d’une trajectoire faciale, des caractéristiques visuelles au niveau des cadres ainsi que les coordonnées 2D des points de repère labiaux à l’aide d’un détecteur léger. Ces coordonnées sont ensuite encodées en cartes de caractéristiques denses, fournissant des informations spatiales et structurelles sur la position des lèvres. Étant donné que les détecteurs de points de repère peuvent parfois échouer dans des conditions difficiles (faible résolution, occlusions, angles extrêmes), nous introduisons une perte auxiliaire de cohérence pour aligner les prédictions issues à la fois des caractéristiques conscientes des lèvres et des caractéristiques uniquement faciales, garantissant ainsi une performance fiable même en l’absence de données labiales. Des expérimentations étendues sur plusieurs jeux de données montrent que LASER surpasse les modèles de pointe, en particulier dans les scénarios où l’audio et les images sont désynchronisés, démontrant une robustesse élevée dans des contextes vidéo réels. Le code est disponible à l’adresse suivante : \url{https://github.com/plnguyen2908/LASER_ASD}.

LASER : Détection de locuteur assistée par des points de repère labiaux pour une robustesse améliorée | Articles de recherche récents | HyperAI