HyperAIHyperAI

Command Palette

Search for a command to run...

Ancrage de phrases textuelles dans les images par reconstruction

Anna Rohrbach; Marcus Rohrbach; Ronghang Hu; Trevor Darrell; Bernt Schiele

Résumé

L'ancrage (c'est-à-dire la localisation) de phrases textuelles arbitraires et libres dans du contenu visuel est un problème complexe avec de nombreuses applications pour l'interaction homme-machine et la résolution des références image-texte. Peu de jeux de données fournissent la localisation spatiale véridique des phrases, il est donc souhaitable d'apprendre à partir de données sans ou avec peu de supervision en matière d'ancrage. Nous proposons une nouvelle approche qui apprend l'ancrage en reconstruisant une phrase donnée à l'aide d'un mécanisme d'attention, qui peut être soit latent, soit optimisé directement. Au cours de l'entraînement, notre approche encode la phrase à l'aide d'un modèle linguistique basé sur un réseau récurrent, puis apprend à porter son attention sur la région pertinente de l'image afin de reconstruire la phrase d'entrée. Lors des tests, l'attention correcte, c'est-à-dire l'ancrage, est évaluée. Si une supervision en matière d'ancrage est disponible, elle peut être appliquée directement par le biais d'une fonction de perte sur le mécanisme d'attention. Nous démontrons l'efficacité de notre approche sur les jeux de données Flickr 30k Entities et ReferItGame avec différents niveaux de supervision, allant de l'absence totale de supervision à une supervision partielle ou complète. Notre variante supervisée améliore considérablement les performances par rapport à l'état de l'art sur les deux jeux de données.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Ancrage de phrases textuelles dans les images par reconstruction | Articles | HyperAI