il y a 8 mois

Résumé

Nous présentons un ensemble de tâches et de données de référence pour le positionnement visuel centré sur la personne, qui consiste à établir des liens entre les personnes nommées dans une légende et celles représentées dans une image. Contrairement aux travaux antérieurs en matière de positionnement visuel, qui sont principalement axés sur les objets, notre nouvelle tâche masque les noms des personnes mentionnées dans les légendes afin d'inciter les méthodes formées sur ces paires image-légende à se concentrer sur les indices contextuels (comme les interactions riches entre plusieurs personnes) plutôt que d'apprendre des associations entre noms et apparences. Pour faciliter cette tâche, nous introduisons un nouveau jeu de données, Who's Waldo, extrait automatiquement à partir des données image-légende de Wikimedia Commons. Nous proposons une méthode basée sur les Transformers qui surpassent plusieurs lignes de base solides dans cette tâche, et nous mettons nos données à disposition de la communauté scientifique pour encourager les travaux sur des modèles contextuels prenant en compte à la fois la vision et le langage.

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 8 mois

Multimodal

Décrivain D'image

Représentation Multimodale

Multimodal

Tâche

Claire Yuqing Cui Apoorv Khandelwal Yoav Artzi Noah Snavely Hadar Averbuch-Elor

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 8 mois

Multimodal

Décrivain D'image

Représentation Multimodale

Multimodal

Tâche

Claire Yuqing Cui Apoorv Khandelwal Yoav Artzi Noah Snavely Hadar Averbuch-Elor

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

Qui est Waldo ? Lien entre les personnes dans le texte et les images

Claire Yuqing Cui Apoorv Khandelwal Yoav Artzi Noah Snavely Hadar Averbuch-Elor

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Qui est Waldo ? Lien entre les personnes dans le texte et les images

Claire Yuqing Cui Apoorv Khandelwal Yoav Artzi Noah Snavely Hadar Averbuch-Elor

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Qui est Waldo ? Lien entre les personnes dans le texte et les images

Claire Yuqing Cui Apoorv Khandelwal Yoav Artzi Noah Snavely Hadar Averbuch-Elor

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters