Person Centric Visual Grounding
Le Positionnement Visuel Centré sur la Personne fait référence à la tâche d'associer la personne mentionnée dans une description textuelle à la personne réelle apparaissant dans une image. Cette tâche vise à atteindre une localisation et une reconnaissance précises de personnes spécifiques en intégrant des informations visuelles et textuelles, ce qui améliore l'exactitude et l'efficacité de la compréhension multimodale du contenu. Cette technologie présente une valeur d'application significative dans des domaines tels que l'interaction homme-machine, la surveillance intelligente et la recherche d'informations multimédias.