HyperAIHyperAI

Command Palette

Search for a command to run...

Plongement visuel-sémantique polysémique pour la recherche intermodale

Yale Song; Mohammad Soleymani

Résumé

L'embedding visuel-sémantique vise à trouver un espace latent partagé où les instances visuelles et textuelles liées sont proches les unes des autres. La plupart des méthodes actuelles apprennent des fonctions d'embedding injectives qui cartographient une instance à un seul point dans cet espace partagé. Malheureusement, l'embedding injectif ne peut pas gérer efficacement les instances polyvalentes ayant plusieurs significations possibles ; au mieux, il trouverait une représentation moyenne de différentes significations. Cela entrave son utilisation dans des scénarios réels où les instances individuelles et leurs associations inter-modales sont souvent ambiguës. Dans ce travail, nous introduisons les Réseaux d'Embedding d'Instances Polyvalentes (PIE-Nets) qui calculent plusieurs représentations diverses d'une instance en combinant le contexte global avec des caractéristiques guidées localement via l'attention auto multi-têtes et l'apprentissage résiduel. Pour apprendre l'embedding visuel-sémantique, nous associons deux PIE-Nets et les optimisons conjointement dans le cadre de l'apprentissage par instances multiples. La plupart des travaux existants sur la recherche inter-modale se concentrent sur les données image-texte. Ici, nous abordons également un cas plus complexe de recherche vidéo-texte. Pour faciliter la recherche future en matière de récupération vidéo-texte, nous publions un nouveau jeu de données composé de 50 000 paires vidéo-sentence collectées à partir des médias sociaux, baptisé MRW (my reaction when). Nous démontrons notre approche dans les scénarios de récupération image-texte et vidéo-texte en utilisant MS-COCO, TGIF et notre nouveau jeu de données MRW.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp