Expression de référence
La tâche de l'expression de référence est un sous-domaine de la vision par ordinateur qui vise à localiser précisément et à tracer des boîtes englobantes autour des instances correspondant aux descriptions données dans les images. Cette tâche améliore non seulement la capacité de la machine à comprendre le langage naturel, mais aussi la précision de la reconnaissance d'objets spécifiques dans les images, avec des applications variées dans l'interaction homme-machine, l'annotation d'images et les scénarios de recherche intelligente.