HyperAIHyperAI

Command Palette

Search for a command to run...

Transformateur de corrélation consciente des rôles sémantiques pour la recherche texte-vidéo

Burak Satar Hongyuan Zhu Xavier Bresson Joo Hwee Lim

Résumé

Face à l'émergence des réseaux sociaux, des quantités massives de vidéos sont téléchargées chaque jour, ce qui rend essentiel le recouvrement du contenu visuel le plus pertinent en réponse à une requête linguistique. La plupart des approches visent à apprendre un espace d'encodage conjoint pour les contenus textuels bruts et visuels, sans exploiter pleinement leurs structures intra-modales ni leurs corrélations inter-modales. Ce papier propose un nouveau modèle transformer qui décompose explicitement le texte et la vidéo en trois rôles sémantiques — objets, contextes spatiaux et contextes temporels — en utilisant un mécanisme d'attention afin d'apprendre les corrélations intra- et inter-roles entre ces trois composantes, permettant ainsi de découvrir des caractéristiques discriminantes pour la correspondance à différents niveaux. Les résultats préliminaires obtenus sur le jeu de données YouCook2, largement utilisé, montrent que notre méthode surpasse significativement une méthode de pointe actuelle, avec une marge importante sur tous les indicateurs. Elle dépasse également deux autres méthodes de pointe sur deux des métriques considérées.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp