il y a 2 mois

Ancrage de phrases textuelles dans les images par reconstruction

Anna Rohrbach; Marcus Rohrbach; Ronghang Hu; Trevor Darrell; Bernt Schiele

Résumé

L'ancrage (c'est-à-dire la localisation) de phrases textuelles arbitraires et libres dans du contenu visuel est un problème complexe avec de nombreuses applications pour l'interaction homme-machine et la résolution des références image-texte. Peu de jeux de données fournissent la localisation spatiale véridique des phrases, il est donc souhaitable d'apprendre à partir de données sans ou avec peu de supervision en matière d'ancrage. Nous proposons une nouvelle approche qui apprend l'ancrage en reconstruisant une phrase donnée à l'aide d'un mécanisme d'attention, qui peut être soit latent, soit optimisé directement. Au cours de l'entraînement, notre approche encode la phrase à l'aide d'un modèle linguistique basé sur un réseau récurrent, puis apprend à porter son attention sur la région pertinente de l'image afin de reconstruire la phrase d'entrée. Lors des tests, l'attention correcte, c'est-à-dire l'ancrage, est évaluée. Si une supervision en matière d'ancrage est disponible, elle peut être appliquée directement par le biais d'une fonction de perte sur le mécanisme d'attention. Nous démontrons l'efficacité de notre approche sur les jeux de données Flickr 30k Entities et ReferItGame avec différents niveaux de supervision, allant de l'absence totale de supervision à une supervision partielle ou complète. Notre variante supervisée améliore considérablement les performances par rapport à l'état de l'art sur les deux jeux de données.