HyperAIHyperAI

Command Palette

Search for a command to run...

Qui est Waldo ? Lien entre les personnes dans le texte et les images

Claire Yuqing Cui Apoorv Khandelwal Yoav Artzi Noah Snavely Hadar Averbuch-Elor

Résumé

Nous présentons un ensemble de tâches et de données de référence pour le positionnement visuel centré sur la personne, qui consiste à établir des liens entre les personnes nommées dans une légende et celles représentées dans une image. Contrairement aux travaux antérieurs en matière de positionnement visuel, qui sont principalement axés sur les objets, notre nouvelle tâche masque les noms des personnes mentionnées dans les légendes afin d'inciter les méthodes formées sur ces paires image-légende à se concentrer sur les indices contextuels (comme les interactions riches entre plusieurs personnes) plutôt que d'apprendre des associations entre noms et apparences. Pour faciliter cette tâche, nous introduisons un nouveau jeu de données, Who's Waldo, extrait automatiquement à partir des données image-légende de Wikimedia Commons. Nous proposons une méthode basée sur les Transformers qui surpassent plusieurs lignes de base solides dans cette tâche, et nous mettons nos données à disposition de la communauté scientifique pour encourager les travaux sur des modèles contextuels prenant en compte à la fois la vision et le langage.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Qui est Waldo ? Lien entre les personnes dans le texte et les images | Articles | HyperAI