Ancrage de phrase
Le Phrase Grounding est une sous-tâche dans le domaine du traitement automatique des langues naturelles qui vise à aligner chaque entité mentionnée par des phrases nominales dans les légendes d'images avec les régions correspondantes de l'image. Cette tâche améliore les capacités de compréhension et d'interaction des données multimodales en établissant des associations précises entre les images et le texte, ce qui est crucial pour améliorer les performances des applications telles que la réponse automatique aux questions visuelles, la recherche d'images et l'annotation automatique d'images.