HyperAIHyperAI

Command Palette

Search for a command to run...

Flickr30k Entities : Collecte de correspondances région-phrase pour des modèles image-sentence plus riches

Bryan A. Plummer Liwei Wang Chris M. Cervantes Juan C. Caicedo Julia Hockenmaier Svetlana Lazebnik

Résumé

Le jeu de données Flickr30k est devenu une référence standard pour la description d'images basée sur des phrases. Cet article présente Flickr30k Entities, qui enrichit les 158 000 légendes du jeu de données Flickr30k avec 244 000 chaînes de coréférence, reliant les mentions des mêmes entités dans différentes légendes pour la même image, et les associant à 276 000 boîtes englobantes annotées manuellement. De telles annotations sont essentielles pour le progrès continu dans la description automatique d'images et la compréhension langagière ancrée. Elles nous permettent de définir un nouveau benchmark pour la localisation des mentions d'entités textuelles dans une image. Nous présentons une ligne de base solide pour cette tâche, combinant un plongement (embedding) image-texte, des détecteurs d'objets courants, un classificateur de couleur et un biais en faveur de l' sélection d'objets plus grands. Bien que notre ligne de base rivalise en précision avec des modèles plus complexes d'avant-garde, nous montrons que ses avantages ne peuvent pas être facilement convertis en améliorations pour des tâches telles que la recherche d'images par phrase, soulignant ainsi les limites des méthodes actuelles et la nécessité de poursuivre les recherches.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp