il y a 17 jours

Connexion entre la vision et le langage à l’aide de récits localisés

Jordi Pont-Tuset, Jasper Uijlings, Soravit Changpinyo, Radu Soricut, Vittorio Ferrari

Résumé

Nous proposons les Localized Narratives, une nouvelle forme d'annotations multimodales d'images qui relie vision et langage. Nous demandons aux annotateurs de décrire une image à voix haute tout en faisant glisser la souris au-dessus de la région qu’ils décrivent. Étant donné que la voix et le pointeur de souris sont synchronisés, nous pouvons localiser chaque mot de la description. Cette localisation visuelle dense prend la forme d’un segment de trajectoire de souris par mot, une caractéristique unique de notre jeu de données. Nous avons annoté 849 000 images avec des Localized Narratives : l’intégralité des jeux de données COCO, Flickr30k et ADE20K, ainsi que 671 000 images du jeu de données Open Images, toutes désormais disponibles publiquement. Nous fournissons une analyse approfondie de ces annotations, montrant qu’elles sont diversifiées, précises et efficaces à produire. Nous démontrons également leur utilité dans l’application de la génération contrôlée de légendes d’images.