Flickr30k Entities : Collecte de correspondances région-phrase pour des modèles image-sentence plus riches

Le jeu de données Flickr30k est devenu une référence standard pour la description d'images basée sur des phrases. Cet article présente Flickr30k Entities, qui enrichit les 158 000 légendes du jeu de données Flickr30k avec 244 000 chaînes de coréférence, reliant les mentions des mêmes entités dans différentes légendes pour la même image, et les associant à 276 000 boîtes englobantes annotées manuellement. De telles annotations sont essentielles pour le progrès continu dans la description automatique d'images et la compréhension langagière ancrée. Elles nous permettent de définir un nouveau benchmark pour la localisation des mentions d'entités textuelles dans une image. Nous présentons une ligne de base solide pour cette tâche, combinant un plongement (embedding) image-texte, des détecteurs d'objets courants, un classificateur de couleur et un biais en faveur de l' sélection d'objets plus grands. Bien que notre ligne de base rivalise en précision avec des modèles plus complexes d'avant-garde, nous montrons que ses avantages ne peuvent pas être facilement convertis en améliorations pour des tâches telles que la recherche d'images par phrase, soulignant ainsi les limites des méthodes actuelles et la nécessité de poursuivre les recherches.