HyperAIHyperAI

Command Palette

Search for a command to run...

Espace Sémantique Commun Multimodal et Multiniveau pour l'Ancrage Image-Phrase

Hassan Akbari; Svebor Karaman; Surabhi Bhargava; Brian Chen; Carl Vondrick; Shih-Fu Chang

Résumé

Nous abordons le problème de l'ancrage de phrases en apprenant un espace sémantique commun à plusieurs niveaux partagé par les modalités textuelle et visuelle. Nous exploitons plusieurs niveaux de cartes de caractéristiques d'un Réseau Neuronal Convolutif Profond, ainsi que des plongements (embeddings) de mots et de phrases contextualisés extraits d'un modèle de langage basé sur les caractères. Après avoir appliqué des transformations non linéaires dédiées aux caractéristiques visuelles à chaque niveau, aux plongements de mots et aux plongements de phrases, nous obtenons plusieursinstanciations de notre espace sémantique commun dans lesquelles des comparaisons entre tout texte cible et le contenu visuel sont effectuées à l'aide de la similarité cosinus. Nous guidons le modèle par un mécanisme d'attention multimodale à plusieurs niveaux qui produit des caractéristiques visuelles attentives à chaque niveau. Le meilleur niveau est choisi pour être comparé avec le contenu textuel afin d'optimiser les scores de pertinence des paires image-phrase du sol véridique (ground truth). Des expériences menées sur trois jeux de données publiquement disponibles montrent des gains significatifs de performance (de 20% à 60% relatifs) par rapport à l'état de l'art en localisation de phrases et établissent un nouveau record de performance sur ces jeux de données. Nous fournissons une étude d'ablation détaillée pour montrer la contribution de chaque élément de notre approche et mettons notre code à disposition sur GitHub.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp