Visual Grounding
Le visual grounding (VG) vise à localiser l'objet ou la région les plus pertinents dans une image en fonction d'une requête en langage naturel. Les défis principaux de cette tâche incluent l'identification du point focal principal de la requête, la compréhension du contenu de l'image et la localisation précise de l'objet cible. Le visual grounding non seulement améliore la naturalité et la précision de l'interaction homme-machine, mais possède également une valeur d'application significative dans des domaines tels que l'annotation d'images, la recherche de contenu et la compréhension de scènes.