Qui est Waldo ? Lien entre les personnes dans le texte et les images

Nous présentons un ensemble de tâches et de données de référence pour le positionnement visuel centré sur la personne, qui consiste à établir des liens entre les personnes nommées dans une légende et celles représentées dans une image. Contrairement aux travaux antérieurs en matière de positionnement visuel, qui sont principalement axés sur les objets, notre nouvelle tâche masque les noms des personnes mentionnées dans les légendes afin d'inciter les méthodes formées sur ces paires image-légende à se concentrer sur les indices contextuels (comme les interactions riches entre plusieurs personnes) plutôt que d'apprendre des associations entre noms et apparences. Pour faciliter cette tâche, nous introduisons un nouveau jeu de données, Who's Waldo, extrait automatiquement à partir des données image-légende de Wikimedia Commons. Nous proposons une méthode basée sur les Transformers qui surpassent plusieurs lignes de base solides dans cette tâche, et nous mettons nos données à disposition de la communauté scientifique pour encourager les travaux sur des modèles contextuels prenant en compte à la fois la vision et le langage.